hadoop streaming 使用总结

最新推荐文章于 2025-03-26 20:30:41 发布

coder_oyang

最新推荐文章于 2025-03-26 20:30:41 发布

阅读量905

点赞数

分类专栏：工具大数据文章标签： hadoop streaming

本文链接：https://blog.csdn.net/coder_oyang/article/details/83856550

版权

工具同时被 2 个专栏收录

20 篇文章

订阅专栏

大数据

11 篇文章

订阅专栏

本文详细介绍了Hadoop客户端的使用，特别是Hadoop Streaming的配置与应用。通过具体实例，如利用Python进行MapReduce编程，展示了如何设置命令参数，以及如何在Map或Reduce阶段使用不同的编程语言。文章还解释了仅使用Map函数的场景，并提供了streaming参数配置的说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hadoop client：客户端可以让用户访问集群，hadoop client 使用手册，通过配置hadoop-site.xml文件，实现访问不同集群，同时该客户端目录的 xx/xx/hadoop/bin/hadoop 是你配置的hadoop命令路径，在streaming命令参数配置时，需要指明该hadoop位置，对于该命令，可以通过 alias hadoopdr='xx/xx/hadoop/bin/hadoop'，用hadoopdr别名代替，或者可写入~/.bashrc
streaming是管道流，不同于文件流，在streaming Python编程中，输入输出采用的是：sys.stdin，sys.stderr；管道流可以使streaming的编程语言多样化，在 -mapper 或-reduce阶段，可以采用Python语言，同样可以采用sh等其他语言，在使用某工具根据图片ID查询图片对应的words时：-mapper ' ./bin/query --flagfile=word_flags.conf | ./merged'，同样的道理，有job在map阶段仅仅做一个输入、输出的操作，可以通过 -mapper 'cat' 实现，这相当于用sh语句实现了map函数
仅需要map函数时候，可以在配置mapred.reduce.tasks=0，map/reduce框架就不会创建reducer任务，mapper任务的输出就是整个作业的最终输出
streaming参数配置的文件地址说明：
1. cmd "$HADOOP_HOME jar $STREAMING ##HADOOP_HOME、STREAMING 都是在配置hadoop客户端时的地址，本地地址，streaming我目前没配置，不知道为什么可以跑成功
2. -cacheArchive ${PYTHON_URI} ## 用于把集群中的PYTHON_URI 文件拷贝到任务当前工作目录并自动把文件解压缩，常用方式："/app/share/python2.7.9.tar.gz#python27"后面 # 后的python27是当前工作目录下的符号链接，它指向python2.7.9.tar.gz解压后的目录
3. -mapper '${PYTHON_IN_HADOOP} ${SCRIPT} map' # PYTHON_IN_HADOOP表示{PYTHON_URI}解压之后的python位置，是个相对路径，一般是：“python27/bin/python”，类似于sh命令中的 python wordcount.py，后面的map是输入参数
4. -input \ output 计算输入集群文件、输出结果到集群
5. mapred.text.key.comparator.options 一定要从第一个字段开始比较排序，因为一个桶里面不止一个key