通过Hadoop StreamingAPI使用perl写MapReduce

Hadoop一般使用Java来写MapReduce,但是也支持其他语言和脚本,类似于管道的概念。即将中间结果通过管道输出给某一可执行文件或脚本,让其充当Map或者Reduce

Perl实现MapReduceWordCount为例,代码如下(可以对比Java的结果):

Mapper.pl

 

while(<>){
chomp;
@arr = split /\s/;
for $word(@arr){
print "$word\t1\n";
}
}

Reducer.pl

my $last_key = "";
my $key = "";
$n = 0;
$firstLine = 1;
while(<>){
	chomp;
	@arr = split(/\t/,$_);
	$key = $arr[0];
	$value = $arr[1];
	if($firstLine == 1){
		$last_key = $arr[0];
		$firstLine = 0;
	}
	if($key ne $last_key){
		print "$last_key\t$n\n";
		$last_key = $key;
		$n = 1;
	}
	else{
		$n++;
	}
}
print "$last_key\t$n\n";

执行:

E:\Code\hadoop-2.4.1\bin\hadoop.cmd jar "E:\Code\hadoop-2.4.1\share\hadoop\tools\lib\hadoop-streaming-2.4.1.jar" -input test.txt -output output -mapper "perl mapper.pl" -reducer "perl reducer.pl"

结果:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值