用Bash Script编写Hadoop MapReduce Streaming

最新推荐文章于 2021-11-29 00:47:03 发布

joeywen

最新推荐文章于 2021-11-29 00:47:03 发布

阅读量1.6k

点赞数

分类专栏： Hadoop/MapReduce 文章标签： hadoop streaming mapreduce

本文链接：https://blog.csdn.net/wzhg0508/article/details/46400873

版权

本文介绍了如何使用Bash脚本来编写Hadoop MapReduce Streaming程序，以实现从特定字符开始统计单词平均长度的功能。包括Mapper和Reducer的Shell Script示例，并提到可以与其他语言的MapReduce性能进行对比。

摘要由CSDN通过智能技术生成

用Bash Script编写Hadoop MapReduce Streaming

标签（空格分隔）： hadoop mapreduce bash

MapReduce对外提供一个多语言编写MR的功能，就是Hadoop Streaming。我们可以通过自己喜欢的语言来编写Mapper和Reducer函数，运行MapReduce job。

根据Hadoop Streaming的定义，只要我们能够从标准输入（standard input）读入数据，然后从标准输出（standard output）读出数据就OK了。但是有一点需要记住，就是如果你要使用自己喜欢的的语言，如Python，就必须要事先在集群上安装该语言对应的版本和对应的lib等等。这里给出Shell Script的示例

输入事文本文件，功能是从特定的字符开始统计单词的平均长度。你可以在程序里实现做些检查来忽略一些字符，也可以少用Pipes和一些command来提升性能等。

Mapper Script ： word_lenght.sh


#!/bin/bash


#This mapper script will read one line at a time and  then break it into words


#For each word starting LETTER and LENGTH of the     word are emitted</