MapReduce编程(python)
文章平均质量分 72
pat_datamine
这个作者很懒,什么都没留下…
展开
-
hadoop-python——Wordcount程序:python实现详解
mapper.py函数如下:import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词,形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in wor原创 2015-01-07 14:20:25 · 2987 阅读 · 0 评论 -
hadoop-python——实现表与表的左连接
map函数如下:import sys for line in sys.stdin: line = line.strip() words = line.split() print '%s %s 1' % (words[0],words[1] ) print '%s %s 2' % (words[1],words[0]原创 2015-01-07 14:50:26 · 1106 阅读 · 0 评论 -
hadoop-python——统计单词出现的频率
map函数如下import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词,形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in words:原创 2015-01-07 14:36:50 · 1915 阅读 · 0 评论 -
hadoop-python:计算平均值分布式程序编写
程序:mapper.pyimport sys for line in sys.stdin: line = line.strip() words = line.split() print '%s\t%s' % (words[0],words[1]) reducer.pyimport sys count=0i=0sum=0fo原创 2015-01-19 21:07:27 · 935 阅读 · 0 评论