mrjob运行方式

最新推荐文章于 2024-01-30 13:55:08 发布

fanf_zhang

最新推荐文章于 2024-01-30 13:55:08 发布

阅读量1.3k

点赞数

分类专栏：机器学习/数据挖掘文章标签： mrjob 并行化

本文链接：https://blog.csdn.net/flyfish5/article/details/52314627

版权

机器学习/数据挖掘专栏收录该内容

13 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用mrjob库在本地进行测试以及在Hadoop集群和EMR上运行作业。本地测试通过InlineMRJobRunner模拟Hadoop环境，而在实际集群上运行则需要配置相关参数，可以通过mrjob.conf、命令行、重写job_runner_kwargs()或直接实例化runner来实现。mrjob提供了一种编程方式来运行MRJob，但需要注意job类和使用编程runner的文件需要分离。

摘要由CSDN通过智能技术生成

翻译自http://pythonhosted.org/mrjob/guides/runners.html

运行

本地测试

python my_mrjob.py < test.txt >output
以上脚本会使用InlineMRJobRunner自动运行文件中的步骤。使用--runner=local可以更接近模拟Hadoop，这种方式不会将工作目录添加到PYTHONPATH，而是设置几个Hadoop环境变量，使用多个子处理器执行工作。
运行单个步骤

#测试第一步mapper
python my_mrjob.py --mapper
#测试第二步reducer
python my_mrjob.py --reducer --step-num=1

在Hadoop集群上运行作业、在EMR上运行

配置

通过几个方法配置运行程序
- 通过mrjob.conf
- 通过命令行（command line）
- 通过重写job_runner_kwargs()
- 通过实例化runner
以编程方式运行作业
常见做法是写一个特定的结构将mrjob包裹起来。使用make_runner()运行一个MRJob。
实例化了一个MRJob的例子：

mr_job = MRWordCounter(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    runner.run()
    for line in runner.stream_output():
        key, value = mr_job.parse_output_line(line)
        ... # do something with the parsed output

注意
不可以在job类的同一个文件中使用编程runner。应该分开在两个文件！