小白學技術-CSDN博客

原创 Hive调优学习笔记4

大数据学习之路，不定时修改和增加内容，欢迎指正第5章 Hive Job优化5.1 Hive Map优化5.1.1 复杂文件增加Map数当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。增加map的方法为：根据computeSlite(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式，调整maxSize最大值，让maxSize最大

2021-07-20 21:31:02 385 1

原创 Hive调优学习笔记3

大数据学习之路，不定时修改和增加内容，欢迎指正第4章数据倾斜（重点）绝大部分任务都很快完成，只有一个或者少数几个任务执行的很慢甚至最终执行失败，这样的现象为数据倾斜现象。一定要和数据过量导致的现象区分开，数据过量的表现为所有任务都执行的很慢，这个时候只有提高执行资源才可以优化HQL的执行效率。综合来看，导致数据倾斜的原因在于按照Key分组以后，少量的任务负责绝大部分数据的计算，也就是说产生数据倾斜的HQL中一定存在分组操作，那么HQL的角度，我们可以将数据倾斜分为单表携带了GroupBy字段的查询

2021-07-18 23:06:05 238 1

原创 Hive调优学习笔记2

第3章 HQL语法优化

2021-07-18 22:39:04 316

原创 Hive调优学习笔记1

第1章 Expalin查看查询计划(重点)1.1 创建测试用表1）建大表、小表和JOIN后表得语句//创建大表create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by '\t';//创建小表create table smalltab

2021-07-14 20:50:31 354 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人