![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 69
just-do-it-zzj
有人经常说:选择比努力更重要,可是如果你不努力,哪里有选择的机会。
展开
-
[Hive]Hive合并小文件
一般每个reduce输出一个文件到HDFS,如果reduce过多,则下阶段处理时就会有很多小文件。如果job只有map,没有reduce,那么可通过map输出时合并小文件。3.1 map端合并set hive.merge.mapfiles=true3.2 reduce端合并set hive.merge.mapredfiles=true3.3 合并后文件的大小set hive.merge.size.per.task=256*1000*10003.4 设置输出文件大小的平均值,当平均原创 2021-02-22 15:46:35 · 208 阅读 · 0 评论 -
[Hive]Hive表文件压缩介绍
目录压缩(1)压缩概述(2)开启Map输出阶段压缩(3)开启Reduce输出阶段压缩(4)创建表时指定压缩格式压缩(1)压缩概述MR支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器压缩性能的比较假如有一个表:create table emp_t(id int,name String,deptno int)row format delimited fields terminated...原创 2021-02-22 15:44:42 · 273 阅读 · 0 评论 -
[Hive] Hive表压缩
目录(1)压缩概述(2)开启Map输出阶段压缩(3)开启Reduce输出阶段压缩(4)创建表时指定压缩格式(1)压缩概述MR支持的压缩编码,表1为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,表2压缩性能的比较,表3注:表1,表2,表3来自网络。假如有一个表:create table emp_t(id int,name String,deptno int)row format delimited ...原创 2021-02-02 15:18:32 · 1603 阅读 · 0 评论 -
[Hive]Hive表开启事务
限制条件:所有DML操作都是自动提交,尚不支持BEGIN,COMMIT,和ROLLBACK,计划在将来的版本中支持这些特性。 在第一个版本中只支持ORC文件格式。构建事务特性的初衷是可以使用任何存储格式,只要这些存储格式可以确定如何更新或删除基本记录(基本上,具有显式或隐式的行id即可),但到目前为止,仅完成针对ORC的集成工作。 默认情况下,事务被配置为OFF。有关配置值的讨论,请参见下面的配置部分。 要使用事务特性,表必须分桶。在同一系统中的不使用事务和ACID的表则无需分桶。外部表不能成为A原创 2021-02-02 11:33:55 · 1603 阅读 · 0 评论 -
[Hive]Hive的分析函数
目录1.Order by 注意点2.sum函数的作用范围3.ROWS BETWEEN4.常用的分析函数4.1 RANk、DENSE_RANK4.2 ROW_NUMBER4.3 SUM4.4 FIRST_VALUE、LAST_VALUE4.4 LAG、LEAD5.GROUPING SETS、GROUPING__ID6. CUBE7.ROLLUP1.Order by 注意点当ORDER BY后面缺少窗口从句条件,窗口规范默认是 RANGE BETWEEN原创 2021-01-27 17:28:04 · 718 阅读 · 0 评论 -
[Hive]Hive常用的优化方法
Hive调优原则(1)保证map扫描的数据量尽量少减少map端扫描数量,需要控制待处理的表文件或中间文件的数据量尽量少。优化的方式如:Hive表文件使用高效的文件格式、Hive表文件使用合适的文件压缩格式、中间文件使用合适的文件压缩格式、利用列裁剪、利用分区裁剪、使用分桶。(2)保证map传送给reduce的数据量尽量小控制map传送给reduce的数据量,是指JOIN避免笛卡尔积、启动谓词下推、开启map端聚合功能。(3)保证map和reduce处理的数据量尽量均衡保证map...原创 2020-12-21 17:54:13 · 869 阅读 · 0 评论 -
[Hive]看懂Hive的执行计划
关于Hive执行计划简述一般执行计划有两个部分:stage dependencies 各个stage之间的依赖性stage plan 各个stage的执行计划一个stage并不一定是一个MR,有可能是Fetch Operator,也有可能是Move Operator。一个MR的执行计划分为两个部分:Map Operator Tree MAP端的执行计划Reduce Op...原创 2018-09-19 15:59:27 · 2172 阅读 · 0 评论