mrjob运行方式

该博客介绍了如何使用mrjob库在本地进行测试以及在Hadoop集群和EMR上运行作业。本地测试通过InlineMRJobRunner模拟Hadoop环境,而在实际集群上运行则需要配置相关参数,可以通过mrjob.conf、命令行、重写job_runner_kwargs()或直接实例化runner来实现。mrjob提供了一种编程方式来运行MRJob,但需要注意job类和使用编程runner的文件需要分离。
摘要由CSDN通过智能技术生成

翻译自http://pythonhosted.org/mrjob/guides/runners.html

运行

本地测试

python my_mrjob.py < test.txt >output
以上脚本会使用InlineMRJobRunner自动运行文件中的步骤。使用--runner=local可以更接近模拟Hadoop,这种方式不会将工作目录添加到PYTHONPATH,而是设置几个Hadoop环境变量,使用多个子处理器执行工作。
运行单个步骤

#测试第一步mapper
python my_mrjob.py --mapper
#测试第二步reducer
python my_mrjob.py --reducer --step-num=1

在Hadoop集群上运行作业、在EMR上运行

配置

通过几个方法配置运行程序
- 通过mrjob.conf
- 通过命令行(command line)
- 通过重写job_runner_kwargs()
- 通过实例化runner
以编程方式运行作业
常见做法是写一个特定的结构将mrjob包裹起来。使用make_runner()运行一个MRJob。
实例化了一个MRJob的例子:

mr_job = MRWordCounter(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    runner.run()
    for line in runner.stream_output():
        key, value = mr_job.parse_output_line(line)
        ... # do something with the parsed output

注意
不可以在job类的同一个文件中使用编程runner。应该分开在两个文件!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值