1.如果hdfs系统里都是小文件,每个mapper 平均只会处理极端的时间,那么这显然调度那么多map去处理如此小文件 是一种浪费,这时可以采用CombineFileInputFormat,一个map读取多个小文件
2. 设置离线的merge 任务,或者前置,或者 如odps red后,会判断输出文件的大小数量,如果满足条件则启动merge任务,将小文件合并起来, (常用的文件格式 RCFILE sequenceFile refer to http://blog.csdn.net/xhh198781/article/details/7693358)
TBD