Hadoop深入浅出Hadoop Streaming&MRJob

最新推荐文章于 2022-12-03 15:51:18 发布

小白数据猿

最新推荐文章于 2022-12-03 15:51:18 发布

阅读量525

点赞数 2

分类专栏： Hadoop&Hive 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/lidongmeng0213/article/details/110927671

版权

本文深入探讨Hadoop Streaming的原理和使用，通过Python和shell脚本展示MapReduce作业。介绍了MRJob库，强调其本地测试和Amazon EMR上的便捷运行。此外，详细解释了如何设置常见参数和集群提交作业。

摘要由CSDN通过智能技术生成

Hadoop Streaming 是Hadoop提供的一个 MapReduce 编程工具，它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。Hadoop Streaming 使用了 Unix 的标准输入输出作为 Hadoop 和其他编程语言的开发接口，因此在其他的编程语言所写的程序中，只需要将标准输入作为程序的输入，将标准输出作为程序的输出就可以了。

原理分析

Hadoop Streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer，我们来分析下Map/Reduce框架和Streaming mapper/reducer之间是如何工作的：

Mapper: 我们使用一个可执行文件用于mapper时候，每一个mapper任务会把这个可执行文件作为一个单独的进程启动。 mapper任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入，同时，mapper收集可执行文件进程标准输出的内容，并把收到的每一行内容转化成key/value对，作为mapper的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的<不包括tab>作为value。如果没有tab，整行作为key值，value值为null;
Reducer: 我们使用一个可执行文件用于reducer，同样的是每个reducer任务会把这个可执行文件作为一个单独的进程启动。 reducer任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入，同时，reducer收集可执行文件进程标准输出的内容，并把每一行内容转化成key/value对，作为reducer的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的<不包括tab>作为value。

简单的例子

python切分例子

// mapper.py
#!/usr/bin/env python
# 切分word
import sys

def read_input(file):
    for line in file:
        yield line.split()

def main(separator='\t'):
    # input comes from STDIN (standard input)
    data = read_input(sys.stdin)
    for words in data:
        for word in words:
            print '%s%s%d' % (word, separator, 1)

if __name__ == "__main__":
    main()

shell脚本切分例子

# mapper.sh
#! /bin/bash

while read LINE

最低0.47元/天解锁文章

小白数据猿

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hadoop深入浅出Hadoop Streaming&MRJob

Hadoop Streaming 是Hadoop提供的一个 MapReduce 编程工具，它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。Hadoop Streaming 使用了 Unix 的标准输入输出作为 Hadoop 和其他编程语言的开发接口，因此在其他的编程语言所写的程序中，只需要将标准输入作为程序的输入，将标准输出作为程序的输出就可以了。原理分析Hadoop Streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的ma.
复制链接

扫一扫

专栏目录