Hadoop Streaming开发要点

$HADOOP_HOME/bin/hadoop jar streaming \
-input /user/test/input \
-output /user/test/output \
-mapper "python mapper.py” \
-reducer "python reducer.py” \
-file mapper.sh \
-jobconf mapred.job.name=”xxx”

input:指定作业的输入文件的HDFS路径,支持使用*通配符,支持指定多个文件或目录,可多次使用
output:指定作业的输出文件的HDFS路径,路径必须不存在,并且具备执行作业用户有创建该目录的权限,只能使用一次
mapper:用户自己写的mapper程序
reduer:用户自己写的reduce程序
file:

打包文件到提交的作用中,
(1) map和reduce的执行文件
(2) map和reduce要用输入的文件,如配置文件
类似的配置还有-cacheFile, -cacheArchive分别用于向计算节点分发HDFS文件和HDFS压缩文件

jobconf:
提交作业的一些配置属性

常见配置:
(1) mapred.map.tasks: map task数目
(2) mapred.reduce.tasks: reduce task数目
(3) stream.num.map.output.key.fields:指定map task输出记录中key所占的域数目
(4) num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个
key

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值