自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hive调优学习笔记4

大数据学习之路,不定时修改和增加内容,欢迎指正 第5章 Hive Job优化 5.1 Hive Map优化 5.1.1 复杂文件增加Map数 当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。 增加map的方法为:根据computeSlite(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值,让maxSize最大

2021-07-20 21:31:02 313 1

原创 Hive调优学习笔记3

大数据学习之路,不定时修改和增加内容,欢迎指正 第4章 数据倾斜(重点) 绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。 一定要和数据过量导致的现象区分开,数据过量的表现为所有任务都执行的很慢,这个时候只有提高执行资源才可以优化HQL的执行效率。 综合来看,导致数据倾斜的原因在于按照Key分组以后,少量的任务负责绝大部分数据的计算,也就是说产生数据倾斜的HQL中一定存在分组操作,那么HQL的角度,我们可以将数据倾斜分为单表携带了GroupBy字段的查询

2021-07-18 23:06:05 186 1

原创 Hive调优学习笔记2

第3章 HQL语法优化

2021-07-18 22:39:04 276

原创 Hive调优学习笔记1

第1章 Expalin查看查询计划(重点) 1.1 创建测试用表 1)建大表、小表和JOIN后表得语句 //创建大表 create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by '\t'; //创建小表 create table smalltab

2021-07-14 20:50:31 303 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除