2021年01月_小满锅lock

01月

原创关于hive on spark的distribute by和group by使用以及小文件合并问题

问题导言最近在使用hive时，发现一些任务的因为使用mapreduce的缘故，跑的太慢了，才几十个G的数据就经常跑一个多小时，于是有了切换spark的想法。但是刚刚切换了spark，第二天发现跑出来的数据文件数大大增加，而且每个文件都非常小，导致下游spark任务为了每个小文件都启动一个task，申请资源对于spark来说是非常消耗资源的，任务又大大延迟了。查了下关于spark合并小文件，目前有几个参数会提供参考。输入端set mapred.max.split.size=256000000;设

2021-01-25 23:37:28 3701

TA关注的人

weixin_43272605的博客

原创关于hive on spark的distribute by和group by使用以及小文件合并问题

空空如也

这个问题怎么解决，docker搭建kafka的wen'ti

关于虚拟地址，物理地址，以及进程切换之间的shi'qing

为什么我用sqoop导数据从hive到mysql会乱序

实例化子类会实例化父类吗？

原创 关于hive on spark的distribute by和group by使用以及小文件合并问题

空空如也

这个问题怎么解决，docker搭建kafka的wen'ti

关于虚拟地址，物理地址，以及进程切换之间的shi'qing

为什么我用sqoop导数据从hive到mysql会乱序

实例化子类会实例化父类吗？

原创关于hive on spark的distribute by和group by使用以及小文件合并问题