python与hadoop的结合_Python结合Shell/Hadoop实现MapReduce

最新推荐文章于 2023-08-13 11:42:27 发布

weixin_39621695

最新推荐文章于 2023-08-13 11:42:27 发布

阅读量95

点赞数

文章标签： python与hadoop的结合

基本流程为：

cat data | map | sort | reduce

cat devProbe | ./mapper.py | sort| ./reducer.py

echo "foo foo quux labs foo bar quux" | ./mapper.py | sort -k1,1 | ./reducer.py

# -k, -key=POS1[,POS2] 键以pos1开始，以pos2结束

如不执行下述命令，可以再py文件前加上python调用

chmod +x mapper.py

chmod +x reducer.py

对于分布式环境下，可以使用以下命令：

hadoop jar /[YOUR_PATH]/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.4.4.jar \

-file mapper.py -mapper mapper.py \

-file reducer.py -reducer reducer.py \

-input [IN_FILE] -output [OUT_DIR]

mapper.py

#!/usr/bin/python#-*- coding: UTF-8 -*-

__author__ = 'Manhua'

importsysfor line insys.stdin:

line=line.strip()

item= line.split('`')print "%s\t%s" % (item[0]+'`'+item[1], 1)

reducer.py

#!/usr/bin/python#-*- coding: UTF-8 -*-

__author__ = 'Manhua'

importsys

current_word=None

current_count=0

word=Nonefor line insys.stdin:

line=line.strip()

word, count= line.split('\t', 1)try:

count=int(count)except ValueError: #count如果不是数字的话，直接忽略掉

continue

if current_word ==word:

current_count+=countelse:ifcurrent_word:print "%s\t%s" %(current_word, current_count)

current_count=count

current_word=wordif word == current_word: #不要忘记最后的输出

print "%s\t%s" % (current_word, current_count)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39621695

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python编写Hadoop MapReduce程序

会编程的小强

08-23

2732

adoop 的 MapReduce 程序，使用的是 Java ，但是使用 Java 很明显的一个弊端就是每次都要编码、打包、上传、执行，还真心是麻烦，想要更加简单的使用 Hadoop 的运算能力，想要写 MapReduce程序不那么复杂。还真是个问题。仔细考虑了下，python刚好切合这个需求，随便搜了下 Python 编写 MapReduce程序，看了个教程，接下来就写下这篇博客做下记录

Hadoop 安装部署详细说明

weixin_42209449的博客

05-16

1497

Hadoop 安装部署详细说明 Hadoop是什么？（1）Hadoop 是一个有 Apache 基金会开发的分布式系统基础架构（2）主要解决海量数据存储和海量数据分析计算问题（3）Hadoop 通常指 Hadoop 生态圈。 Hadoop 的优势（四高）高可靠性：Hadoop 底层维护多个数据副本，即使 Hadoop 某个计算程序或存储出现故障，也不会导致数据的丢失。高扩展性：在集群之间分配任务数据，可方便的扩展数以千计的节点。高效性：在 MapReduce 的思想下，Had

参与评论您还未登录，请先登录后发表或查看评论

python + hadoop （案例）

aijia7039的博客

01-02

189

python如何链接hadoop，并且使用hadoop的资源，这篇文章介绍了一个简单的案例！一、python的map/reduce代码首先认为大家已经对haoop已经有了很多的了解，那么需要建立mapper和reducer，分别代码如下： 1、mapper.py #!/usr/bin/env python import sys for line in sys.stdi...

python与Hadoop的交互

ILovePythonhao的博客

05-14

424

import pyhdfs fs = pyhdfs.HdfsClient(hosts='192.168.1.105,50070',user_name='hao') fs.get_home_directory()#返回这个用户的根目录 fs.get_active_namenode()#返回可用的namenode节点 fs.mkdirs('/wenjian') #新建文件 fs.copy_from_local('c.txt','/jiqunwenjian/',) #上传本地文件到HDFS集群 fs.copy_

hadooppython实例_python + hadoop （案例）

weixin_39769183的博客

11-28

302

python如何链接hadoop，并且使用hadoop的资源，这篇文章介绍了一个简单的案例！一、python的map/reduce代码首先认为大家已经对haoop已经有了很多的了解，那么需要建立mapper和reducer，分别代码如下：1、mapper.py#!/usr/bin/env pythonimportsysfor line insys.stdin:line=line.strip()wo...

hadoop（4）——用python代码结合hadoop完成一个小项目

weixin_48445640的博客

10-07

729

mapper.py和reducer.py文件内容借鉴于如下博客： https://blog.csdn.net/marywang56/article/details/80395519 我们都知道hadoop是在java环境下完成的，但是通过hadoop-streaming这个java小程序，我们可以把python代码放入hadoop中，然后通过stdin和stdout来进行数据的传递。（1）开启yarn 通过jps命令查看（2）查看mapper.py和reducer.py （3）测试命令 &l.

让python在hadoop上跑起来

09-21

标题提到的"让python在hadoop上跑起来"是指在Hadoop分布式计算环境中使用Python编写MapReduce任务。Hadoop是一个开源的分布式计算框架，主要用于处理和存储大规模数据。Python是一种广泛使用的编程语言，尤其在数据...

基于Python的大数据Hadoop平台2-2、MapReduce.zip

最新发布

10-31

开发语言：Linux、python、java、c++、sql、scala 开发工具：Linux、Hadoop、spark、tensorflow、pytorch 开发方式：shell、vim、IDE(idea) 项目：推荐系统----模板，融会贯通（检索、反作弊、预测）重点：架构思维...

java__Hadoop_MapReduce教程.pdf

11-04

- **编程模型**：尽管Hadoop是用Java实现的，但MapReduce应用可以使用多种语言编写，如Java、Python、Perl，甚至通过Hadoop Streaming使用Shell脚本。 Hadoop的运行依赖于JobTracker（Master）和TaskTracker（Slave...

winpythonhadoop_用python结合hadoop

weixin_39730284的博客

12-08

130

用python结合hadoop作者：阿俊发布于：2013-3-31 21:48 Sunday分类：python由于数据量的疯狂增长，现在的实验或者是比赛都不得不用并行的算法来实现，而hadoop中的map/reduce框架正是多种并行框架中被广泛使用的一种。下面总结一下python+hadoop的几种方法：1、hadoop流hadoop为我们提供了一个计算平台和一个并行计算框架，Hadoop流提...

Python+大数据-Hadoop生态-hadoop(一)--大数据导论、Apache Zookeeper

呆呆小哥的秘密基地

10-29

413

Python+大数据-Hadoop生态-hadoop(一)--大数据导论、Apache Zookeeper

(超详细)0基础利用python调用Hadoop，云计算

m0_54850825的博客

04-14

1084

第一章配置Hadoop 前言本次我们python+大数据的作业我选择附加一利用hadoop+python实现，最近考完试有时间来完成。这次我们用到的是Hadoop，利用python进行操作首先我们要配置我们的虚拟机简介： MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：（1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

基于python开发hadoop shell

hijack00的博客

09-05

1887

Hadoop是一个分布式计算框架，提供了一个分布式文件系统（HDFS）和一个分布式计算架构（MapReduce）的开源实现。本文通过python cmd模块开发了一个交互式hadoop shell程序，可以在一个交互式shell里调用Hadoop的常用子命令。同时shell也支持通过`!`调用shell命令。关于利用python创建一个小型交互式应用程序，参考我的博客[利用python cmd模块开发小型命令行应用

Python 使用Hadoop 3 之HDFS 总结

zhouzhiwengang的专栏

08-13

3483

调用文件系统(HDFS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。

hadoopshpython_在Hadoop上运行Python脚本

weixin_30588381的博客

03-04

394

之前已经配置好了Hadoop以及Yarn，可那只是第一步。下面还要在上面运行各种程序，这才是最重要的。Ubuntu安装时默认已经安装了Python, 可以通过Python –version 查询其版本。因此我们可以直接运行python的脚本了。Python MapReduce Code这里我们要用到 Hadoop Streaming API，通过STIDN(Standard input)和 S...

hadoop学习笔记：使用Python写Hadoop MapReduce程序

weixin_41555165的博客

01-10

1514

用python写MapReduce函数——以WordCount为例