hadoop的Streaming学习（续）

最新推荐文章于 2024-07-14 22:23:58 发布

dandingyy

最新推荐文章于 2024-07-14 22:23:58 发布

阅读量844

点赞数

分类专栏： hadoop学习文章标签： hadoop mapreduce function output 作业 java

本文链接：https://blog.csdn.net/dandingyy/article/details/7404680

版权

hadoop学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

3.用Streaming处理键值对

默认情况下，Streaming使用\t分离记录中得键和值，当没有\t时，整个记录被视为键，值为空白文本。

不同于AttributeMax.py为每个键寻找最大值，这次我们试着为每个国家找到专利声明数的平均值。（Hadoop包含得名为Aggregate包，可以为每个键寻找最大值）

（1)Streaming中得mapper通过STDIN读取一个分片，并将每一行提取为一个记录。Mapper可以选择是把每条记录翻译为一个键值对，还是一行文本

此步从输入文件到<k1,v1>

（2) 对于mapper输出的每一行，Streaming API将之翻译为用\t分隔的键值对，类似于MapReduce中的划分，可以用pationer来处理键。最终所有键一致的key/value进入相同reducer。

（3）没个reducer以键为基准排序键值对，如同在Java模式中，相同键的键值对被结组为一个键和一列值。reducer处理这些分组。

（4）在实践中，reducer的输出（STDOUT)被写入到一个文件中（由-output指定）

对AverageByAttributeMaper.py：

<<<<<<<<<<<<<<<<<<<Mapper daima>>>>>>>>>>>>>>>>>>>

无reducer方式运行时：-D mapred.reducer.tasks=0

输出由行组成：一个国家代码 \t 一个计数值，并且其顺序与输入记录一致

以IdentityReducer方式运行，设置-D mapred.reducer.tasks=1(这种方式只要不设置-reducer选项即可）

执行结束可以看到虽然每行的内容与上一个相同，但是顺序被重排，键相同的“结组”在一起。可以根据这些信息考虑自己的reducer设计：

AverageByAttributeReducer.py——将相同键的值求和计数，在遇到新的键或到文件尾时，计算前一个键的平均值并输出到STDOUT中。

<<<<<<<<<<<<<<<<<<<<<<Reducer daima>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

这时可以运行完整的MapReduce作业。会得到真正的平均值文件。

4.通过Aggregate包使用Streaming

Hadoop有一个成为Aggregate软件包，极大简化数据集的汇总统计。尤其在使用Streaming时。

在Streaming中Aggregate包作为Reducer做聚集统计，只需提供一个mapper处理记录并以特定格式输出。输出每行如下：

function:key\tvalue

function为值聚合函数的名称（由Aggregate包中预定义函数获得），接着一组键值对，值聚合函数列表如下：

如果要计算每年授权的专利数，考虑编写MapReduce程序的方法：

可以使mapper的输出将年设置为key，而value的值恒为1。这样reducer只需要对所有的1求和即可。使用基于Aggregate包的Streaming来实现：

AttributeCount.py

#!/usr/bin/env python
import sys
index = int(sys.argv[1])
for line in sys.stdin:
    fields = line.split(",")
    print "LongValueSum:" + fields[index] + "\t" + "1"

关键语句：print "LongValueSum:" + fields[index] + "\t" + "1"。。按指定格式（ function:key\tvalue）打印到输出！

运行如下：

hadoop jar contrib/streaming/hadoop-streaming-0.20.203.jar  \
-file  AttributeCount.py    \
-input  apat63_99.txt    \
-output  output   \
-mapper 'AttributeCount.py 1'   \
-reducer aggregate

关键在指定-reducer选项上！

表4.3中UniqValueCount给出每个键对应惟一值个数（待理解？？？？）

ValueHistogram会输出多项内容，它要求的mapper输出格式为：

ValueHistogram:key\tvalue\tcount