- 博客(1)
- 问答 (4)
- 收藏
- 关注
原创 关于hive on spark的distribute by和group by使用以及小文件合并问题
问题导言最近在使用hive时,发现一些任务的因为使用mapreduce的缘故,跑的太慢了,才几十个G的数据就经常跑一个多小时,于是有了切换spark的想法。但是刚刚切换了spark,第二天发现跑出来的数据文件数大大增加,而且每个文件都非常小,导致下游spark任务为了每个小文件都启动一个task,申请资源对于spark来说是非常消耗资源的,任务又大大延迟了。查了下关于spark合并小文件,目前有几个参数会提供参考。输入端set mapred.max.split.size=256000000;设
2021-01-25 23:37:28 3701
空空如也
这个问题怎么解决,docker搭建kafka的wen'ti
2020-01-16
关于虚拟地址,物理地址,以及进程切换之间的shi'qing
2019-11-03
为什么我用sqoop导数据从hive到mysql会乱序
2019-09-28
实例化子类会实例化父类吗?
2019-09-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人