hadoop多路径输入总结

问题导读

1.如何将本地多个输入文件合并到hadoop中的一个文件?
2.MapReduce多路径输入,文说了几种路径模式?






目前为止知道MapReduce有三种路径输入方式。
1、第一种是通过一下方式输入:
 

FileInputFormat.addInputPath(job, new Path(args[0]));
FileInputFormat.addInputPath(job, new Path(args[1]));
FileInputFormat.addInputPath(job, new Path(args[2]));
FileInputFormat.addInputPath(job, new Path(args[3]));

这种方式可以接收多个路径下的文件输入,但是这些文件都是通过一个Map进行处理

2、第二种是通过以下方式输入(第二个路径参数是通过,分割的多个路径):
 

FileInputFormat.addInputPaths(job, args[0] + "," + args[1] + "," + args[2]);

这种方式跟第一种相似,看源码会发现,该方式是先将路径通过,分割成String[] paths数组形式,然后再循环调用第一种方式,而且他也是通过一个Map进行处理

3、第三种是通过以下方式输入:
 

MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,EmpMapper.class);
MultipleInputs.addInputPath(job, new Path(args[1]), TextInputFormat.class,EmpMapper.class);
MultipleInputs.addInputPath(job, new Path(args[2]), TextInputFormat.class,TestMapper.class);

这种方式是针对不同的输入文件,他们的格式可能不同,然后针对他们的格式编写相应的Map分别进行处理,这种方式更灵活些。






如何将多个输入文件合并到hadoop中的一个文件


在使用hadoop是,我们有时候需要将本地文件系统上的多个文件合并为hadoop文件系统上的一个文件,但是 hadoop文件系统本身的shell命令并不支持这样的功能,但是hadoop的put命令支持从标准输入读取数据,所以实现标题功能的hadoop命令如下:

cat localfile1 localfile2 | bin/hadoop fs -put /dev/fd/0 destfile  

转载于:https://my.oschina.net/iioschina/blog/787335

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值