通过Hadoop StreamingAPI使用perl写MapReduce

最新推荐文章于 2020-09-14 15:33:55 发布

congduanxd

最新推荐文章于 2020-09-14 15:33:55 发布

阅读量1.8k

点赞数 1

分类专栏： BigData

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/congduan/article/details/41249893

版权

BigData 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop一般使用Java来写MapReduce，但是也支持其他语言和脚本，类似于管道的概念。即将中间结果通过管道输出给某一可执行文件或脚本，让其充当Map或者Reduce。

以Perl实现MapReduce的WordCount为例，代码如下（可以对比Java的结果）：

Mapper.pl

while(<>){
chomp;
@arr = split /\s/;
for $word(@arr){
print "$word\t1\n";
}
}

Reducer.pl

my $last_key = "";
my $key = "";
$n = 0;
$firstLine = 1;
while(<>){
	chomp;
	@arr = split(/\t/,$_);
	$key = $arr[0];
	$value = $arr[1];
	if($firstLine == 1){
		$last_key = $arr[0];
		$firstLine = 0;
	}
	if($key ne $last_key){
		print "$last_key\t$n\n";
		$last_key = $key;
		$n = 1;
	}
	else{
		$n++;
	}
}
print "$last_key\t$n\n";

执行：

E:\Code\hadoop-2.4.1\bin\hadoop.cmd jar "E:\Code\hadoop-2.4.1\share\hadoop\tools\lib\hadoop-streaming-2.4.1.jar" -input test.txt -output output -mapper "perl mapper.pl" -reducer "perl reducer.pl"

结果：

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

congduanxd CSDN认证博客专家 CSDN认证企业博客

码龄14年

205: 原创

5万+: 周排名

3万+: 总排名

116万+: 访问

: 等级

1万+: 积分

930: 粉丝

379: 获赞

483: 评论

973: 收藏

私信

关注

热门文章

分类专栏

最新评论

Verilog代码自动缩进和对齐Perl脚本(更新)
桂林电子科技大学唐林: 怎么使用呢
数模国赛前一天总结
2301_80102234: 打不开了链接
数学建模常用Matlab/Lingo/c代码总结系列——floyd最短路径
胶大药贩子: lingo编程代码有点小错误，派生集合定义里有点问题 model: sets: cities/A,B1,B2,C1,C2,C3,D/; roads(cities,cities)/A,B1 A,B2 B1,C1 B1,C2 B1,C3 B2,C1, B2,C2 B2,C3 C1,D C2,D C3,D/:w,x; endsets data: w=2 4 3 3 1 2 3 1 1 3 4; enddata n=@size(cities); !城市的个数; min=@sum(roads:w*x); @for(cities(i)|i #ne#1 #and# i #ne#n: @sum(roads(i,j):x(i,j))=@sum(roads(j,i):x(j,i))); @sum(roads(i,j)|i #eq#1:x(i,j))=1; @sum(roads(i,j)|j #eq#n:x(i,j))=1; end
通信网络实验——停等式ARQ协议实现
丘水水学编程: 大佬，看不到被删除的图片了，而且问一下，你是用什么做的接发？
从DFA角度理解KMP算法
树根朽木: 我也是在看了算法第四版中感觉困惑，一开始看的王道和严蔚敏的数据结构，就是普通的next数组，然后看了算法第四版什么东西，感觉状态转移表很像next数组，但是在定义的数组又和next不一样，然后看了算法导论第三版，原来如此。但是KMP中的那部分，没有应用状态转移吧，我看算法导论中运用的是next数组.

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。