用Python讲解MapReduce
使用python写map.py和reduce.py两个脚本,详细讲解mapreduce整个流程。(本地运行、hadoop集群上利用hadoop-streaming.jar运行)
map.py代码
import sys
for line in sys.stdin:
word_list=line.strip().split(" ")
for word in word_list:
print(word+"\t1")
reduce.py代码
import sys
current_word=None
sum=