【原创】python MRJob -…

最新推荐文章于 2024-08-08 17:04:25 发布

zhipeng-python

最新推荐文章于 2024-08-08 17:04:25 发布

阅读量752

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u012731379/article/details/64125716

版权

python 专栏收录该内容

107 篇文章 0 订阅

订阅专栏

安装方式：easy_install mrjob

使用方法：

#!-*- coding: utf8 -*-"这段代码是使用MapReduce进行分词统计！"import re
import sys
import jieba

from mrjob.job import MRJob

word_re = re.compile(u"[\u4E00-\u9FA5]+")


class TestMrJob(MRJob):
    def mapper(self, _, line):        "统计每行"
        for word in word_re.findall(line.decode("utf8")):
            for new_word in jieba.cut(word):
                yield new_word.lower(), 1

    def reducer(self, word, counts):        "统计结果"
        yield word, sum(counts)


if __name__ == '__main__':   #此处注意：    data = TestMrJob.run()
    #sys.argv.append("data/2")
    #TestMrJob.run()

python test-mrjob.py data/2  > tmp

python test-mrjob.py data/*  > tmp

奇怪的是，tmp文件中的结果是这样子的....





碉堡了...

-

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhipeng-python

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python&nbsp;&nbsp;word实现读取及导出代码解析

09-16

主要介绍了Python word实现读取及导出代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

Python-mrjob在Hadoop或AmazonWebServices上运行MapReduce作业

08-10

Python的`mrjob`库是开发和运行MapReduce作业的强大工具，尤其适用于在Hadoop或Amazon Web Services (AWS)环境中。这个库简化了在分布式计算系统中执行数据处理任务的过程，使得Python开发者无需深入理解Hadoop的...

参与评论您还未登录，请先登录后发表或查看评论

MRJob 极速入门，Python玩转Hadoop你会么？

实验楼

09-28

767

想要Hadoop乖巧地运行Python程序，学习mrjob可能是最直接、最简单的方法了，你甚至都不要按安装部署Hadoop集群。mrjob拥有很多优秀的特性比如：支持多步...

Python第三方库——mrjob的介绍

最新发布

2401_85855266的博客

08-08

905

mrjob是一个强大的 Python 库，它允许开发者以 Pythonic 的方式编写 MapReduce 作业，并在多种环境下运行这些作业，包括本地机器、Hadoop 集群、Amazon Elastic MapReduce (EMR) 和 Google Cloud Dataproc。通过使用mrjob，您可以轻松地处理大规模数据集，而无需深入了解 Hadoop 或其他底层技术的复杂性。

mrjob，一个非常强大的 Python 库

m0_59236127的博客

01-30

1258

mrjob是一个由 Yelp 开发的 Python 库，用于编写和运行 Hadoop Streaming 的 MapReduce 作业。它允许开发者使用Python编写MapReduce代码，并且能够在各种环境中无缝运行——无论是在一台机器上，还是在一个完整的Hadoop集群上，甚至是在云服务如Amazon Elastic MapReduce (EMR) 上。mrjob最大的优点之一是它的可移植性和易用性，它为处理大数据集提供了一种简单的Pythonic方式。

【MRJob】使用python3完成centos中的hadoop mapreduce操作

qq_40502034的博客

04-24

817

MRJob mrjob是python的mapreduce编程接口，可以很方便的完成单层或多层map-reduce任务。现利用mrjob完成最简单的字频统计任务。 1.数据与脚本我们要统计的文本如下： a b c a b d d 将其保存并命名为text文件 [hadoop@localhost workspace]$ cat text a b c a b d d 相应的py程序如下 [hadoop@localhost workspace]$ cat test3.py #!/usr/bin/python

python_mrjob之路第一章第一篇安装系统环境

03-03

990

序言：最近在公司内部搭建了hadoop的mapreduce集群环境。 hadoop版本 1.0.4 hive版本 0.10 同时部署了ganglia 3.0.3版本的系统监控程序，可以动态监控集群环境的机器实时的各项参数指标。已经可以用hive进行相关的数据查询，后续准备通过python语言做自定义的mapreduce计算。第一章第一篇安装p

PyPI 官网下载 | mrjob-0.1.0-pre3.tar.gz

01-13

《PyPI官网下载 | mrjob-0.1.0-pre3.tar.gz——探索Python MapReduce框架》在Python的世界里，高效处理大数据是一项关键任务，而`mrjob`库正是这样一款工具，它为开发者提供了在本地或者Amazon EMR上运行MapReduce...

mrjob-workshop

06-25

mrjob-workshop 此存储库将是 mrjob 研讨会的示例和设置代码。本项目使用来测试每个示例中的代码。要自己运行测试，请安装 python 依赖项、bats 并运行： $ make test

写出使用Python中的mrjob库分析txt中的数据服从什么分布的具体python代码

05-13

假设我们要分析一个txt文件中的数据是否服从正态分布，可以使用Python中的mrjob库来实现。具体的代码如下： ```python from mrjob.job import MRJob import numpy as np from scipy.stats import normaltest class...

python开发大数据工具_大数据Hadoop工具python教程4-mrjob

weixin_39869432的博客

12-17

354

mrjob是由Yelp创建的Python MapReduce库，它封装了Hadoop流，允许MapReduce应用程序以更加Pythonic的方式编写。 mrjob用纯Python编写多步MapReduce作业。使用mrjob编写的MapReduce作业可以在本地测试，在Hadoop集群上运行，或使用Amazon Elastic　MapReduce(EMR)在云中运行。使用mrjob编写MapRe...

centos+python3+mrjob+hadoop,python httpflow.py -r hadoop 报错，但使用“-r local”的方式正常？

Mr_JWYang

08-04

757

Running step 1 of 1... packageJobJar: [/tmp/hadoop-unjar6848459156223719147/] [] /tmp/streamjob1203525417845159775.jar tmpDir=null Connecting to ResourceManager at /0.0.0.0:8032 Connecting to R...

Python&nbsp;-&nbsp;基础知识1

smile_benson

05-19

391

1. python一些基础知识记录下: 继承和多态: __metaclass__ = type #python新类语法 class Calculator: def calculate(self, expression): self.value = eval_r(expression) def mShow(self): print "Calcula

python&nbsp;3.x（1）

ccbrid的博客

08-27

415

import 与 from...import 在 python 用 import 或者 from...import 来导入相应的模块。将整个模块(somemodule)导入，格式为： import somemodule 从某个模块中导入某个函数,格式为： from somemodule import somefunction 从某个模块中导入多个函数,格式为： from somemodu

【原创】Python&nbsp;PyQuery&nbsp…

张志鹏的博客

03-20

338

新浪微博对标签和文本支持不是很好，所以很多标签文本被当作html标签了，大致意思还是可以懂的有一段html如下： P1 B1-Child P-Parent B2-Child P2 con = " P1 B1-Child P-Parent B2-Child P2 " >>> pq(con).text() 'P1 B1-Child P-Parent

【原创】&nbsp;linux-python&nbsp;…

张志鹏的博客

03-20

173

spiderMonkey 原创所有，转载请附明本文超链接地址以及作者和本声明，谢谢！http://blog.sina.com.cn/s/blog_83dc494d0101c29n.html -------------------------------------------------------------- svn checkout http://python-spidermonkey

利用python操作mrjob实例---wordcount

weixin_30615767的博客

08-28

479

网上利用java实现mr操作实例相对较多,现将python实现mr操作实例---Wordcount分享如下: 在操作前,需要作如下准备: 1.确保linux系统里安装有python3.5,python3.6以上考虑到兼容性不是太友好,之前也踩过相应的坑。（这里对python3.5的安装不作细述，需注意环境的配置正确！） 2.安装mrjob：pip install mrjob（这里...

【原创】python&nbsp;使用系统模块…

张志鹏的博客

03-20

302

看了development Into python ,用的的import os 这里方便大家理解，直接用 from os import path 当然这个的坏事是不要在自己的代码中再次定义path这个字段.但是有个好处是不用每次都sys.path ... >>> from os import path >>> path.expanduser('~') 'C:\\Users\\zhangzhip

【原创】python&nbsp;MRJob&nbsp;-…

【原创】python MRJob -…