将近期写的MR程序及过程记录下来。
简单介绍下环境:
hadoop2.6.4
hadoop-streaming-2.6.0.jar
线上python2,线下python3都可以用
首先放上需要的代码,定制python代码,很爽
mapper.py
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import sys
#定义一个函数读标准输入或者文件内容,读入内容按空格分割
def read(file):
for line in file:
#yield可以使一个函数具有迭代功能,也可以起到缓冲作用
yield line.split()
#定义主函数,得到输入中每个词的个数,可重复出现
def main(separator&#