翻译自http://pythonhosted.org/mrjob/guides/runners.html
运行
本地测试
python my_mrjob.py < test.txt >output
以上脚本会使用InlineMRJobRunner自动运行文件中的步骤。使用--runner=local
可以更接近模拟Hadoop,这种方式不会将工作目录添加到PYTHONPATH,而是设置几个Hadoop环境变量,使用多个子处理器执行工作。
运行单个步骤
#测试第一步mapper
python my_mrjob.py --mapper
#测试第二步reducer
python my_mrjob.py --reducer --step-num=1
在Hadoop集群上运行作业、在EMR上运行
配置
通过几个方法配置运行程序
- 通过mrjob.conf
- 通过命令行(command line)
- 通过重写job_runner_kwargs()
- 通过实例化runner
以编程方式运行作业
常见做法是写一个特定的结构将mrjob包裹起来。使用make_runner()
运行一个MRJob。
实例化了一个MRJob的例子:
mr_job = MRWordCounter(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
runner.run()
for line in runner.stream_output():
key, value = mr_job.parse_output_line(line)
... # do something with the parsed output
注意
不可以在job类的同一个文件中使用编程runner。应该分开在两个文件!