Hadoop Streaming shell 脚本命令汇总

本文汇总了在Hadoop项目中使用Streaming进行JOB开发时常用的shell脚本命令,包括集群输入输出地址的定义、正则匹配文件路径、文件筛选与拼接等。由于Hadoop Streaming对拼接文件数量有限制,作者分享了一个完整的JOB提交脚本实例,适用于文件数量较少的情况。
摘要由CSDN通过智能技术生成

    Hadoop Streaming由于编程相对容易,开发效率比较快,在项目中比较采用这种方式进行JOB的开发,在提交JOB的时候,都会把相关的命令整合到一个shell 文件,这里作个汇总,虽然现在没有机会做Hadoop 相关的,记下来相信会有所帮助,无论是自己还是别人。

    在编写JOB相关的脚本中,都会涉及集群输入和输出地址的定义,一般都是按照年月日并且按照文件大小进行切割,如果输入的路径下都是需要的文件,这个时候只需要定义路径的变量即可,可以利用正则匹配的方式来定义变量,如果路径下的文件需要筛选和拼接,可能会稍微麻烦点,但是Hadoop Streaming的命令对拼接的文件个数有限制,比如在map输入的时候,可以利用","将文件进行拼接,但是这里文件个数有限制,太长的话提交的时候会报错,具体数值我记不清了,大概不到2000个文件,一般情况下,当文件个数较少的时候,利用这种方式还是比较快的。下面脚本是实现一个完整的JOB提交。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值