- 博客(1)
- 资源 (21)
- 收藏
- 关注
原创 hive merge小文件
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.
2013-02-19 11:57:06 31487
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人