![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
ChinaJoeEE
这个作者很懒,什么都没留下…
展开
-
hive优化
分区表/桶表应用,skew,map-join //见hive的基本语法行列转换hive 优化hive 优化思想Explain 的使用经典案例(distinct count)数据倾斜的原因操作:关键词 情形 后果1、Join 其中一个表较小,但是key 集中分发到某一个或几个Reduce 上的数据远高于平均值 ;2、大表与大表,但是分桶的判断字段0 值或空值过多这些空值都由一...原创 2019-08-13 15:40:14 · 129 阅读 · 0 评论 -
hive优化
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化...原创 2019-08-13 16:19:58 · 195 阅读 · 0 评论 -
hive优化
1、limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况---对数据源进行抽样hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能hive.limit.row.max.size --- 设置最小的采样容量hive.limit.optimize.limit.fi...原创 2019-08-13 11:43:14 · 213 阅读 · 0 评论 -
hive优化
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。一. 表连接优化1. 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_name)...原创 2019-08-13 10:29:12 · 223 阅读 · 0 评论