![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 86
小白學技術
这个作者很懒,什么都没留下…
展开
-
Hive调优学习笔记4
大数据学习之路,不定时修改和增加内容,欢迎指正第5章 Hive Job优化5.1 Hive Map优化5.1.1 复杂文件增加Map数当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。增加map的方法为:根据computeSlite(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值,让maxSize最大原创 2021-07-20 21:31:02 · 263 阅读 · 1 评论 -
Hive调优学习笔记3
大数据学习之路,不定时修改和增加内容,欢迎指正第4章 数据倾斜(重点)绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。一定要和数据过量导致的现象区分开,数据过量的表现为所有任务都执行的很慢,这个时候只有提高执行资源才可以优化HQL的执行效率。综合来看,导致数据倾斜的原因在于按照Key分组以后,少量的任务负责绝大部分数据的计算,也就是说产生数据倾斜的HQL中一定存在分组操作,那么HQL的角度,我们可以将数据倾斜分为单表携带了GroupBy字段的查询原创 2021-07-18 23:06:05 · 137 阅读 · 1 评论 -
Hive调优学习笔记2
第3章 HQL语法优化原创 2021-07-18 22:39:04 · 262 阅读 · 0 评论 -
Hive调优学习笔记1
第1章 Expalin查看查询计划(重点)1.1 创建测试用表1)建大表、小表和JOIN后表得语句//创建大表create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by '\t';//创建小表create table smalltab原创 2021-07-14 20:50:31 · 235 阅读 · 2 评论