- 博客(4)
- 收藏
- 关注
原创 Hive调优学习笔记4
大数据学习之路,不定时修改和增加内容,欢迎指正 第5章 Hive Job优化 5.1 Hive Map优化 5.1.1 复杂文件增加Map数 当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。 增加map的方法为:根据computeSlite(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值,让maxSize最大
2021-07-20 21:31:02 313 1
原创 Hive调优学习笔记3
大数据学习之路,不定时修改和增加内容,欢迎指正 第4章 数据倾斜(重点) 绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。 一定要和数据过量导致的现象区分开,数据过量的表现为所有任务都执行的很慢,这个时候只有提高执行资源才可以优化HQL的执行效率。 综合来看,导致数据倾斜的原因在于按照Key分组以后,少量的任务负责绝大部分数据的计算,也就是说产生数据倾斜的HQL中一定存在分组操作,那么HQL的角度,我们可以将数据倾斜分为单表携带了GroupBy字段的查询
2021-07-18 23:06:05 186 1
原创 Hive调优学习笔记1
第1章 Expalin查看查询计划(重点) 1.1 创建测试用表 1)建大表、小表和JOIN后表得语句 //创建大表 create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by '\t'; //创建小表 create table smalltab
2021-07-14 20:50:31 303 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人