Hadoop Streaming 运行Python脚本

最新推荐文章于 2024-09-14 22:07:12 发布

weixin_30535043

最新推荐文章于 2024-09-14 22:07:12 发布

阅读量86

点赞数

文章标签：大数据人工智能 python

原文链接：http://www.cnblogs.com/zach-Emrys/p/3471750.html

版权

若出现如下错误，

java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

将#!/usr/bin/env python插入到python脚本的顶端即可解决。

#mapper.py
#!/usr/bin/env python
import sys
dic = {}
for line in sys.stdin:
    line = line.strip().split()
    for key in line:
        if dic.has_key(key):
            dic[key] += 1
        else:
            dic[key] = 1
for key, value in dic.items():
    print "%s\t%d" % (key, value)

#reducer.py
#!/usr/bin/env python
import sys
wordcount = {}
for line in sys.stdin:
    line = line.strip()
    word,count=line.split("\t",1)
    count=int(count)
    wordcount[word]=wordcount.get(word,0)+count
for word,count in wordcount.items():
    print "%s\t%d" % (word, count)

Hadoop命令：

hadoop jar /hadoop/hadoop-streaming-1.1.2.jar 
-input * -output *
-file /home/map.py
-mapper map.py
-file /home/red.py
-reducer red.py

注意：hadoop-streaming-1.1.2.jar并不在hadoop的根目录下，请去/hadoop/contrib/streaming下寻找。

转载于:https://www.cnblogs.com/zach-Emrys/p/3471750.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30535043

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用hadoop streaming运行Python MapReduce程序

oxygensss的博客

04-24

707

使用hadoop streaming运行Python MapReduce程序 Hadoop Streaming是Hadoop提供的一种编程工具，允许用户用任何可执行程序和脚本作为mapper和reducer来完成Map/Reduce任务，这意味着你如果只是hadoop的一个轻度使用者，你完全可以用Hadoop Streaming+Python/Ruby/Go 等任何你熟悉的语言来完成你的大数据探索需求，又不需要写上很多代码。 1.hadoop streaming的工作方式 hadoop streaming

hadoopshpython_在Hadoop上运行Python脚本

weixin_30588381的博客

03-04

390

之前已经配置好了Hadoop以及Yarn，可那只是第一步。下面还要在上面运行各种程序，这才是最重要的。Ubuntu安装时默认已经安装了Python, 可以通过Python –version 查询其版本。因此我们可以直接运行python的脚本了。Python MapReduce Code这里我们要用到 Hadoop Streaming API，通过STIDN(Standard input)和 S...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop Streaming运行Python脚本程序

weixin_33738555的博客

10-17

200

1.Streaming简介 Streaming工具允许用户使用非java的语言来编写map和reduce函数。Hadoop的Streaming使用Unix标准作为Hadoop和应用程序之间的接口，所以我们可以使用任何编程语言通过标准输入/输出来写MapReduce程序。详细的用法可以参考这篇博文： http://dongxicheng.org/mapreduce/hadoop-streamin...

[Hadoop] Hadoop Streaming使用Python编程

Cindy的博客

05-14

4642

Hadoop Streaming 是Hadoop提供方的一个编程工具，它允许用户使用任何可执行文件或者脚本作为Mapper和Reducer。Hadoop Streaming 多语言编程1. 以标准输入流作为输入： 1) C++: cin 2) Php: stdin 3) Python: sys.stdin2. 以标准的输出流作为输出： 1) C++: cout 2) ...

hdfs通过接口退出安全模式_Alluxio深度学习实战1：体验在HDFS上运行PyTorch框架

weixin_39605347的博客

11-20

433

请点击上方蓝字，关注我们哦！作者简介：车漾阿里云高级技术专家，从事 Kubernetes 和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统，是GPU 共享调度的主要作者和维护者本文简介：在HDFS上运行PyTorch程序本来需要用户修改PyTorch的适配器代码进行完成的工作，通过Alluxio，我们简化了适配工作，能够快速开展模型的开发和训练。而通过Kubernet...

使用hadoop streaming 运行python脚本

jjgii的博客

10-21

207

使用hadoop streaming 运行python脚本【hadoop jar /data/bigdata/hadoop-2.7.3/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -input /input/word.txt -output /output -mapper ‘python mapper.py’ -reducer ‘python reduce.py’ -file ./mapper.py -file ./reduce.py】

python hadoop streaming_Hadoop Streaming运行Python脚本程序

weixin_39970823的博客

12-18

203

1.Streaming简介Streaming工具允许用户使用非java的语言来编写map和reduce函数。Hadoop的Streaming使用Unix标准作为Hadoop和应用程序之间的接口，所以我们可以使用任何编程语言通过标准输入/输出来写MapReduce程序。详细的用法可以参考这篇博文： http://dongxicheng.org/mapreduce/hadoop-streaming-p...

使用hadoop-streaming运行Python编写的MapReduce程序.rar

05-09

Hadoop Streaming是Hadoop的一个重要组件，它允许用户使用任何可生成标准输入/输出的工具（如Python脚本）来实现MapReduce算法。这个压缩包“使用hadoop-streaming运行Python编写的MapReduce程序.rar”显然是一个...

Hadoop streaming运行python程序如何设置map和reduce的个数（python）

Never-Giveup的博客

01-07

2516

Hadoop Streaming给许多语言（java,scala,python,C等）提供了使用Hadoop和编写Mapreduce的接口。在实际工作中，我选择python来做大数据处理，在编写mapreduce作业时，经常遇到map和reduce的个数怎么设置，因为它们的个数决定着程序运行的效率和一些其它方面的因素（例如对于一个大的数据集，如果使用一个map来处理，很容易造成该节点的内存等不足）...

hadoopStreaming---使用Python编写MapReduce

yleave的博客

09-19

560

文章目录hadoop streaming 简介工作原理MR 编写示例执行 MR 脚本本地测试分布式系统上执行关于 hadoop streaming 配置的一些参考学习文章要使用其他语言编写 MR 任务，首先要了解一下 Hadoop Streaming hadoop streaming 简介 Hadoop streaming 是 Hadoop的一个工具，它帮助用户创建和运行一类特殊的 map/reduce 作业，这些特殊的map/reduce 作业是由一些可执行文件或脚本文件充当 mapper 或者

python爬虫部署hadoop_让python代码在hadoop上运行

weixin_35049095的博客

02-21

792

使用Python编写MapRecuce代码的技巧就在于我们使用了Hadoop streaming来帮助我们在map和reduce之间传递数据通过stdin和stdout，我们仅仅使用Python的sys.stdin来输入数据，使用Python的sys.stdout来输出数据，其他的streaming都会帮我们做好。别不信这一点！首先创建map和reduce处理程序,用python实现。mapper...

hadoop-streaming 需要的python版本打包

renyuanfang的专栏

04-11

1260

在使用python写mapper-reduce的时候，集群的python 环境往往不能满足开发的需求，需要自己重新打包python，以下是自己打包python 的主要过程：下载python wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz # 解压 tar -xzvf Python-3.6.8.tg #指定pyth.........

Flume：大规模日志收集与数据传输的利器

最新发布

Casual_Lei的博客

09-14

763

是一个分布式、可靠、可扩展的日志收集和聚合系统，设计的初衷是用于高效收集和传输大量日志数据。它通常用于将数据从各种数据源，如日志文件、应用服务器、甚至是消息队列，实时传输到大数据处理系统（如 Hadoop 的 HDFS、HBase 或 Kafka）。Flume 的一个重要特点是其“可插拔性”，可以灵活地配置不同的数据源（Source）和目标存储（Sink），通过中间通道（Channel）来实现可靠的数据传输。Apache Flume 是一个非常强大的工具，适用于大规模日志数据的实时收集和传输。

【运维监控】Prometheus+grafana监控zookeeper运行情况

alanchanchn的专栏

09-11

1069

通过zookeeper自带的监控信息暴露出来，然后将数据收集到prometheus中，最后通过grafana的dashboard导入模板进行可视化

滚雪球学SpringCloud[2.2]：Consul与Zookeeper服务注册

**My Coding Family**

09-14

610

在上一节【2.1 服务注册中心Eureka】中，我们探讨了 Netflix 开源的服务注册中心 Eureka 的核心概念及其在微服务架构中的应用。Eureka 通过提供服务注册与发现功能，帮助微服务之间高效通信，并且具备高可用性和扩展性。虽然 Eureka 在微服务架构中应用广泛，但并不是唯一的解决方案。除了 Eureka，还有其他非常优秀的服务注册中心，如Consul和Zookeeper，它们在不同的场景下各有优势。本节将详细介绍Consul和Zookeeper。

Python+HadoopStreaming：实战分布式编程与原理详解

"用Python+Hadoop Streaming编写分布式程序是一种利用Hadoop框架进行大数据处理的强大工具，尤其对于那些希望在Python环境下利用Hadoop的MapReduce模型进行并行计算的应用开发者而言。Hadoop最初由Google提出，包含...