基于 shell streaming的 Map/Reduce程序

最新推荐文章于 2020-05-14 11:02:05 发布

china1000

最新推荐文章于 2020-05-14 11:02:05 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/china1000/article/details/18323327

版权

数据挖掘专栏收录该内容

32 篇文章 7 订阅

订阅专栏

今天试了很久终于将基于 streaming的 Map/Reduce调通了。看了半天的hadoop streaming 的介绍竟然全部都没有streaming的KV键值对的介绍。

首先讲一下streaming的 Hadoop脚本的程序的执行，Mapper将数据按行读进来，Reduce接收整行的数据。注意此时Reducer处理程序的时候，默认按照第一列数据作为键值的Key并且使用 \t进行划分。下面就是基于streaming的wordcount程序。

使用streaming编写Map/Reduce挺快，但是shell脚本调试确实困难。。。。

首先gen.sh的程序：

#!/bin/bash

date_ymd=`date -d +"%Y%m%d"`

hadoop_home=/opt/hadoop-client/hadoop
HADOOP=${hadoop_home}/bin/hadoop
INPUT=
OUTPUT=

${hadoop_home}/bin/hadoop fs -test -e ${OUTPUT}
if [ $? == 0 ]
then
${HADOOP} fs -rmr ${OUTPUT}
fi

${HADOOP} streaming \
    -D mapred.reduce.tasks=23 \
    -D mapred.job.name="cc_count" \
    -input ${INPUT} \
    -output ${OUTPUT} \
    -mapper "mapper.sh" -reducer "reducer.sh" \
    -file mapper.sh \
    -file reducer.sh

mapper.sh 程序：

awk -F"\3|\t" '{
for(i=0;i<NF;i++){

print $i "\t" 0

}
}'

reducer.sh程序：

awk -F"\t|\3" '{
if( url[$1] == "" ){
urlarray[$1]=1
}

else

urlarray[$1]++
}
END{
for url in urlarray

do

print url "\t" urlarray[url]

done
}'

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于 shell streaming的 Map/Reduce程序

今天试了很久终于将基于 streaming的 Map/Reduce调通了。看了半天的hadoop streaming 的介绍竟然全部都没有streaming的KV键值对的介绍。首先讲一下streaming的 Hadoop脚本的程序的执行，Mapper将数据按行读进来，Reduce接收整行的数据。注意此时Reducer处理程序的时候，默认按照第一列数据作为键值的Key并且使用 \
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。