MapReduce工作笔记 系列目录:MapReduce工作笔记——目录
0. 前言
在工作中时常会遇到一个job需要多路径的输入,比如计算CTR,需要PV、Click的输入路径,或者是想对一周的数据做Merge等, 下面将提供三种方法来完成多目录/多路输入。
比如,我路径下有如下共12个文件:
$ hls /home/wangcongying/test/
/home/wangcongying/test/20181101
/home/wangcongying/test/20181102
/home/wangcongying/test/20181103
/home/wangcongying/test/20181104
/home/wangcongying/test/20181105
/home/wangcongying/test/20181106
/home/wangcongying/test/20181107
/home/wangcongying/test/20181108
/home/wangcongying/test/20181109
/home/wangcongying/test/20181110
/home/wangcongying/test/20181111
/home/wangcongying/test/otherFile
每一个路径下有10个part,如下:
$ hls /home/wangcongying/test/20181101
/home/wangcongying/te