Hadoop Streaming使用简介

最新推荐文章于 2021-06-16 13:55:42 发布

tomson8975

最新推荐文章于 2021-06-16 13:55:42 发布

阅读量323

点赞数

分类专栏： mapred 文章标签： Hadoop

本文链接：https://blog.csdn.net/tomson8975/article/details/49465429

版权

mapred 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

示例：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper org.apache.hadoop.mapred.lib.IdentityMapper \
    -reducer /bin/wc

这是最一般的用法，输入输出文件和mapper，reducer是最基本的要素。

mapper和reducer可以是任何程序Java,C++，Shell,C,Python.

一些常用的附加选项：

-file 打包map,reduce所需要的配置文件，输入文件，字典等，或者执行文件如map,reduce

-numReduceTask限制reduce的个数，0表示不需要reduce=[-reduce NONE]

-inputformat JavaClassName 输入格式

-outputformat JavaClassName 输出格式
-partitioner JavaClassName 分片函数
-combiner streamingCommand or JavaClassName 合并函数

可以看出，跟普通的MapR程序的结构一样。

bin/hadoop command [genericOptions] [streamingOptions]

下面讲一下通用参数：

注意，通用参数一定在放在前面，如上例。

Parameter	Optional/Required	Description
-conf configuration_file	Optional	Specify an application configuration file——指定一个配置文件
-D property=value	Optional	Use value for given property——指定单个配置项
-fs host:port or local	Optional	Specify a namenode——指定格外的nn
-jt host:port or local	Optional	Specify a job tracker——指定格外的yarn
-files	Optional	需要上传的文件，作用跟上面的-file一样
-libjars	Optional	需要上传的jar包
-archives	Optional	上传需要的文件并且解压到Task的工作目录中

tomson8975

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop Streaming使用简介

示例：$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc
复制链接

扫一扫