hadoop跑第一个python wordcount程序

最新推荐文章于 2024-07-22 17:41:13 发布

冷昕

最新推荐文章于 2024-07-22 17:41:13 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/qq_35710240/article/details/79799288

版权

本文介绍如何在Hadoop环境下执行第一个Python编写的WordCount程序，涵盖Hadoop的基本概念和Python MapReduce的实现步骤，带你入门Hadoop分布式计算。

摘要由CSDN通过智能技术生成

参考博客：https://www.cnblogs.com/kaituorensheng/p/3826114.html

https://blog.csdn.net/wangato/article/details/70173682

hadoop集群框架搭建完了，试了几次很稳定，但是这只是第一步，编程才是重要的，另外，虽然hadoop的教程大多数都是用java编写也很清晰，但是对我来说最大的问题就是：我不会闸瓦，于是，找了几篇python实现wordcount的博客试着做一下

一：首先是编写python 的 mapreduce代码：

#!/usr/bin/env python
import sys
for line in sys.stdin:
    line = line.strip()
    words = line.split()
    for word in words:
        print "%s\t%s" % (word, 1)

此处采用的是标准输入输出，将其作为hadoop的接口。此段代码的作用是将文件分割成一个个的<word> 1的形式，其中strip是删除头尾空白符。

写完之后要增加可执行权限（reducer.py也是）

chmod +x hadoop-0.20.2/t

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

冷昕

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python hadoop wordcount_在Hadoop上用Python实现WordCount

weixin_39553458的博客

12-18

332

一、简单说明本例中我们用Python写一个简单的运行在Hadoop上的MapReduce程序，即WordCount(读取文本文件并统计单词的词频)。这里我们将要输入的单词文本input.txt和Python脚本放到/home/data/python/WordCount目录下。cd /home/data/python/WordCountvi input.txt输入：There is no denyi...

hadooppython编程_Hadoop札记：使用Python编写wordcount程序

weixin_39846089的博客

12-02

191

尝试着用3台虚拟机搭建了伪分布式系统，完整的搭建步骤等熟悉了整个分布式框架之后再写，今天写一下用python写wordcount程序(MapReduce任务)的具体步骤。MapReduce任务以来HDFS存储和Yarn资源调度，所以执行MapReduce之前要先启动HDFS和Yarn。我们都知道MapReduce分Map阶段和Reduce阶段，这就需要我们自己写Map阶段的处理方法和Reduce...

参与评论您还未登录，请先登录后发表或查看评论

任务一： Python实现一个wordcount函数

最新发布

weixin_54534379的博客

07-22

214

创建一个空字典来存储单词计数# 将文本转换为小写，去除标点符号，然后按空格分割成单词# 遍历所有单词进行计数else:# 示例文本# 调用 wordcount 函数并打印结果。

hadoop中使用Python语言实现wordcount功能

u010199356的博客

02-18

1853

run.sh HADOOP_CMD=&quot;/usr/local/src/hadoop-2.6.5/bin/hadoop&quot; STREAM_JAR_PATH=&quot;/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar&quot; INPUT_FILE_PATH_1=&quot;/The_Man_of_Prop

在Hadoop上用Python实现WordCount

weixin_33894640的博客

06-09

370

一、简单说明　　本例中我们用Python写一个简单的运行在Hadoop上的MapReduce程序，即WordCount（读取文本文件并统计单词的词频）。这里我们将要输入的单词文本input.txt和Python脚本放到/home/data/python/WordCount目录下。 cd /home/data/python/WordCount vi input.txt 输入： There...

Hadoop--基础知识点--6--wordcount-python

Chasing__Dreams的博客

04-23

315

在了解到Hadoop的生态环境以及Hadoop单机模式和伪分布式模式安装配置之后，我们可以使用自己熟悉的语言来编写Hadoop MapReduce程序，进一步了解MapReduce编程模型。本教程将使用Python语言为Hadoop编写一个简单的MapReduce程序：单词计数尽管Hadoop框架是用Java编写的，但是为Hadoop编写的程序不必非要Java写，还可以使用其他语言开发，比如Python，Ruby，C++等尽管Hadoop框架是用Java编写的，但是为Hadoop编写的程序不必非要J

hadoop-python——Wordcount程序：python实现详解

pat_datamine的专栏

01-07

2981

mapper.py函数如下： import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词，形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in wor

spark使用python教程_Spark2.1.0+入门：第一个Spark应用程序：WordCount(Python版)

weixin_39622980的博客

11-24

570

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载。版权所有，侵权必究！返回Spark教程首页推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》前面已经学习了Spark安装，完成了实验环境的搭建，并且学习了Spark运行架构和RDD设计原理，同时，我们还学习了Scala编程的基本语法，有了这些基础知识作为铺垫，现在我们可以没有障碍地开始编写一个简单...

Hadoop的MapReduce实例讲解—Python写的WordCount Demo

weixin_41465064的博客

11-16

507

MapReduce是hadoop这只大象的核心，Hadoop 中，数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。因此，我们的编程中心主要...

python 编写函数例子_用python写MapReduce函数——以WordCount为例

weixin_39965490的博客

11-26

155

尽管Hadoop框架是用java写的，但是Hadoop程序不限于java，可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例，而不是用Jython把python代码转化成jar文件。例子的目的是统计输入文件的单词的词频。输入：文本文件输出：文本（每行包括单词和单词的词频，两者之间用'\t'隔开）1. Python MapReduce 代码使用python...

使用python实现mapreduce（wordcount）.doc

07-31

Python实现MapReduce的WordCount（hadoop平台）在进行大数据处理时，JAVA程序用的较多，但是，想要把深度学习算法用到MapReduce中，Python是深度学习和数据挖掘处理数据较为容易的语言，所以基于以上考虑，本文介绍了使用python实现MapReduce中的WordCount实验

python的wordcount程序

Romantic_sir的博客

02-24

688

# 计算给定文章的单词出现个数wordcount str_word = ''' Once a circle missed a wedge The circle wanted to be whole so it went around looking for its missing piece But because it was incomplete and theref...

python实现wordcount程序

TURING.DT

05-25

4829

需要统计的文件 $ cat input.txt foo foo quux iio oo pp pp oo see you you again welcome test test ddd gggg ggg acc aaa dddd bbb ddd ccc ddd ccc aaa wo ni ta who am i ----------------------------- mapper.py代码

python在hadoop上运行

lck5602的专栏

09-01

866

1、命令样式： hadoop jar $STREAM \-files ./mapper.py,./reducer.py \-mapper ./mapper.py \-reducer ./reducer.py \-input /user/$(whoami)/input/*.txt \-output /user/$(whoami)/output hadoo

Hadoop——跑wordcount demo

zhiman_zhong的博客

11-22

551

wordcount有自带的jar，也可以自己写了上传一、跑自带的example 1.创建输入文件 touch /usr/hadoop/tmp/words 然后vim修改内容，我写了两行 hello world hello zzm 2.在 HDFS 上创建目录，并上传到hdfs分布式中（1）[hadoop@Mmaster hadoop]$ bin/h...

python 版WordCount

gaofeiSister的博客

03-26

1805

1新建文件mapper_python.py编辑：#!/usr/bin/python#-*- coding: utf-8 -*-import sysfor line in sys.stdin: line = line.strip() words = line.split(' ') count=int(count) for word in words: print...

理解MapReduce

dianshuo4558的博客

05-10

140

1.用Python编写WordCount程序并提交任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔编写map函数，reduce函数 #！/usr/...

python写wordcount_使用Pyspark编写wordcount程序

weixin_39671467的博客

02-20

389

标签：# Word count on manuscript using PySpark# import regex moduleimport re# import add from operator modulefrom operator import add# read input filefile_in = sc.textFile(‘/home/an/Documents/A00_Documen...

Hadoop的第一个WordCount程序

05-11

Hadoop的第一个WordCount程序是一个非常简单的程序，它的主要目的是计算一个文本文件中每个单词出现的次数。以下是一个基本的WordCount程序： 1. 创建一个Java项目并导入Hadoop库。 2. 创建一个Java类并实现以下...