hive 分配map数过少导致任务执行慢

最新推荐文章于 2022-10-20 10:54:04 发布

weixin_30701521

最新推荐文章于 2022-10-20 10:54:04 发布

阅读量490

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/charlie-badegg/p/3932754.html

版权

数据表大概150M，但是只有几个字段，导致行数特别多，当使用正则表达式去匹配时执行较慢。

解决思路：增大map数;

//设置reduce数为150，将原表分成150份，map数无法直接设置，因为和输入文件数和文件大小等几个参数决定
set mapred.reduce.tasks = 150;

//在map完成阶段不对文件进行合并，相应还有个mapredfiles，是在整个任务完成后不对输出文件合并，否则无法达到分割150份目的
set hive.merge.mapfiles=false;

设置需要合并的文件最大为1M，就是说当map的输入文件小于1M时才会被合并；以为150M分成150份每个是1M，所以不会被合并，这样就会有150个map了；因为输入文件使用了压缩累：查看hive.input.format参数可知
set mapred.max.split.size=1000000;

将原文件按最后一列随机数列分配到每个reduce；123为随机数的种子生成器

drop table tmp_libc_sso_dislocation_1;
create table tmp_libc_sso_dislocation_1 as
select * from tmp_libc_sso_dislocation
distribute by rand(123);

转载于:https://www.cnblogs.com/charlie-badegg/p/3932754.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注