- 博客(4)
- 收藏
- 关注
原创 Hive调优学习笔记4
大数据学习之路,不定时修改和增加内容,欢迎指正第5章 Hive Job优化5.1 Hive Map优化5.1.1 复杂文件增加Map数当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。增加map的方法为:根据computeSlite(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值,让maxSize最大
2021-07-20 21:31:02
385
1
原创 Hive调优学习笔记3
大数据学习之路,不定时修改和增加内容,欢迎指正第4章 数据倾斜(重点)绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。一定要和数据过量导致的现象区分开,数据过量的表现为所有任务都执行的很慢,这个时候只有提高执行资源才可以优化HQL的执行效率。综合来看,导致数据倾斜的原因在于按照Key分组以后,少量的任务负责绝大部分数据的计算,也就是说产生数据倾斜的HQL中一定存在分组操作,那么HQL的角度,我们可以将数据倾斜分为单表携带了GroupBy字段的查询
2021-07-18 23:06:05
238
1
原创 Hive调优学习笔记1
第1章 Expalin查看查询计划(重点)1.1 创建测试用表1)建大表、小表和JOIN后表得语句//创建大表create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by '\t';//创建小表create table smalltab
2021-07-14 20:50:31
354
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人