使用Python实现Map Reduce程序

最新推荐文章于 2022-12-05 16:11:49 发布

weixin_34185364

最新推荐文章于 2022-12-05 16:11:49 发布

阅读量116

点赞数

文章标签： python 大数据

使用Python实现Map Reduce程序

起因

想处理一些较大的文件，单机运行效率太低，多线程也达不到要求，最终采用了集群的处理方式。

详细的讨论可以在v2ex上看一下。

步骤

MapReduce程序要分为两部分，即Map和Reduce部分，所以Python代码也是要分为两部分
程序运行

hadoop jar contrib/streaming/hadoop-streaming-1.1.2.jar   
-mapper /usr/local/hadoop/mapper.py   
-reducer /usr/local/hadoop/reducer.py   
-input book/*   
-output book-output

jar文件要在本机上找到，可以使用find命令搜索
input和output目录要在hdfs上
mapper和reducer代码放在本机即可
Map 和 Reduce间传递数据通过STDIN (标准输入)和STDOUT (标准输出)

程序实例

可以写一个什么都不做的程序，即获得输入，然后输出
mapper.py如下

import sys

for line in sys.stdin:
    print line

reducer.py如下

import sys

for line in sys.stdin:
    print line

赋予代码可运行权限 chmod即可
然后运行即可在output位置查看输出

参考

CSDN

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34185364

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python实现mapreduce程序

liang_biao的博客

07-14

9520

一：目的之前面试曾遇到面试官让用python代码实现mapreduce中最简单的demo WordCount,由于之前一直用java来写hadoop程序，突然转到python，是我产生了质疑，python与hadoop应该是不兼容的，即使写出来程序，到时候怎么运行？一头雾水最后导致面试失败。后来通过查阅资料，研究mapreduce的底层实现，发现尽管Hadoop框架是用Java编写的，但是为H

使用Python实现Hadoop MapReduce程序

热门推荐

不积跬步，无以至千里；不积小流，无以成江海

03-10

7万+

转自：使用Python实现Hadoop MapReduce程序英文原文：Writing an Hadoop MapReduce Program in Python 根据上面两篇文章，下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序，打字很浪费时间滴。在这个实例中，我将会向大家

参与评论您还未登录，请先登录后发表或查看评论

使用Python编写第一个MapReduce程序

NickZxing

07-31

605

使用Python编写第一个MapReduce程序演示目标演示环境编写MR编写mapper编写reducer部署MR上传python文件到服务器编写Sheel脚本运行MR 演示目标编写一个MapReduce，用于计算文章中所有词语的出现次数（WordCount）。演示环境基于Hadoop2.6.5；完整环境请参考以下两篇博客：从0开始搭建Hadoop2.x高可用集群（HDFS篇）从0...

Python map和reduce函数用法示例

09-22

在Python编程中，map()和reduce()是两个非常有用的高阶函数。它们通常用于对序列进行操作，map()用于将函数应用于序列的每个元素，而reduce()用于将序列中的元素“累积”到单个值。 ### map函数用法 map()函数将...

简单了解python filter、map、reduce的区别

12-23

这篇文章主要介绍了简单了解python filter、map、reduce的区别,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python中有一些非常有趣的函数，面试的时候可能...

Python中map,reduce,filter和sorted函数的使用方法

01-21

python的map 函数使得函数能直接以list的每个元素作为参数传递到funcname中, 并返回响应的新的list 如下: def sq(x): return x*x #求x的平方 map(sq, [1,3, 5,7,9]) #[1, 9, 25, 49, 81] 在需要对list中的每个...

Python中的高级函数map/reduce使用实例

12-24

Python中的`map()`和`reduce()`函数是两个非常重要的高级函数，它们在处理数据和实现算法时发挥着关键作用。这两个函数源于函数式编程的概念，尤其是Google的MapReduce框架，该框架被设计用于大规模数据集的分布式...

python词频统计完整步骤_Python使用Hadoop进行词频统计

weixin_39964590的博客

11-24

746

今天，我们利用python编写一个MapReduce程序，程序的目的还是百年不变的计算单词个数，也就是WordCunt。所谓mapreduce其实就是先分散计算后综合处理计算结果。首先我们来看一下map部分的代码。#!/usr/bin/env pythonimport sys# input comes from STDIN (standard input)for line in sys.stdin...

python写mapreduce_用Python来写MapReduce的实际应用程序

weixin_39531780的博客

12-09

228

用Python来写分布式的程序。这样速度快。便于调试，更有实际意义。MapReduce适合于对文本文件的处理及数据挖掘用：在每台机器上：su - hadoopwget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2tar jxvf Python-3.0.1.tar.bz2cd Python-3.0.1./configure -...

mapreduce的Python操作方法

xzpdxz的博客

03-20

1894

1.mrjob简介 mrjob是一个编写mapreduce任务Python开源框架，它既可以模拟hadoop的mapreduce，也可以之间在hadoop上运行 2.安装mrjob [root@i ~]# yum -y install epel-release [root@i ~]# yum -y install python-pip (如果你没有安装pip) [root@...

mapreduce编程实例python-Python编写MapReduce作业的简单示例

weixin_37988176的博客

11-01

412

这篇文章主要为大家详细介绍了Python编写MapReduce作业的简单示例，具有一定的参考价值，可以用来参考一下。对python这个高级语言感兴趣的小伙伴，下面一起跟随512笔记的小编两巴掌来看看吧！mrjob 可以让用 Python 2.5+ 来编写 MapReduce 作业，并在多个不同平台上运行，你可以：使用纯 Python 编写多步的 MapReduce 作业在本机上进行测试在 Hado...

python编写mapreduce实例_使用Python编写MapReduce作业

weixin_35645652的博客

12-23

345

mrjob 可以让用 Python 2.5+ 来编写 MapReduce 作业，并在多个不同平台上运行，你可以：使用纯 Python 编写多步的 MapReduce 作业在本机上进行测试在 Hadoop 集群上运行使用 Amazon Elastic MapReduce (EMR) 在云上运行pip 的安装方法非常简单，无需配置，直接运行：pip install mrjob代码实例：from mrj...

大数据hadoop系列：python实现MapReduce 词频统计

qq_26766821的博客

09-13

3194

map代码：map_t.py import sys import re p = re.compile(r'\w+') for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s...

python导出协同过滤结果_转换python协同过滤代码以使用Map Reduce

weixin_31648507的博客

02-10

120

这实际上并不是一个“MapReduce”功能,但它可以给你一些显着的加速,而不会有任何麻烦.我实际上会使用numpy来“矢量化”操作,让你的生活更轻松.从这里你只需要遍历这个字典并应用矢量化函数,将这个项目与其他项目进行比较.import numpy as npbnb_items = bnb.values()for num in xrange(len(bnb_items)-1):sims = co...

python写mapreduce_Python初次实现MapReduce——WordCount

weixin_39742958的博客

12-09

347

前言Hadoop 本身是用 Java 开发的，所以之前的MapReduce代码小练都是由Java代码编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop 运行。本文用Python语言实现了词频统计功能，最后通过Hadoop Streaming使其运行在Hadoop上。Python写MapReduce代码使用Python写MapReduce的“诀窍”是利用H...

用Python写MapReduce函数——以WordCount为例

m0_72557783的博客

12-05

1820

尽管Hadoop框架是用java写的，但是Hadoop程序不限于java，可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例，而不是用Jython把python代码转化成jar文件。

mapreduce（python开发)

qq_45014844的博客

06-01

6915

开发mapreduce 简介： MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：（1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。（2）MapReduce是一个并行计算与运行软件框架（Software Framework）。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任

用python实现一个map reduce操作