手把手教你使用Hadoop自带的wordcount程序

最新推荐文章于 2024-05-14 03:04:51 发布

AaronChen23

最新推荐文章于 2024-05-14 03:04:51 发布

阅读量5.1k

点赞数 7

文章标签： hadoop linux 大数据 hdfs

本文链接：https://blog.csdn.net/qq_43008103/article/details/118691992

版权

打开终端，切换到hadoop用户，启动Hadoop

su hadoop
start-all.sh
mr-jobhistory-daemon.sh start historyserver

jps看一看Hadoop服务进程有没有运行成功

jps

我们在hadoop目录里新建一个test文件夹，然后新建两个文本，一个内容是“Hello World”，另一个内容是“Hello Hadoop”

cd $HADOOP_HOME
mkdir test
echo Hello World >> test/test1.txt
echo Hello Hadoop >> test/test2.txt

在HDFS上创建input文件夹

hadoop fs -mkdir /input

上传本地test目录中的文件到HDFS的input目录下

hadoop fs -put test/* /input

运行wordcount示例程序

cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output

WordCount输出结果

查看运行结果，首先查看HDFS的output路径下的文件信息。

hadoop fs -ls /output

可以看到在output目录下生成了2个文件，成功文件和结果文件。

最后查看结果文件的具体结果

hadoop fs -cat /output/part-r-00000

如果希望将Hadoop运行结果输出到本地文件系统，执行下面的命令

hadoop fs -get /output/* $HADOOP_HOME/test

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AaronChen23

关注关注

7
点赞
踩
70

收藏

觉得还不错? 一键收藏
0
评论
手把手教你使用Hadoop自带的wordcount程序

切换到hadoop用户，启动Hadoopsu hadoopstart-all.shmr-jobhistory-daemon.sh start historyserver
复制链接

扫一扫

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例(1)

2401_84103512的博客

05-01

由于篇幅限制，小编在此截出几张知识讲解的图解[外链图片转存中…(img-FdrsQLyS-1714548559904)][外链图片转存中…(img-YYwDbNmc-1714548559905)]本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录。

hadoop自带示例wordcount

最新发布

2401_84692226的博客

05-14

1033

各位读者，由于本篇幅度过长，为了避免影响阅读体验，下面我就大概概括了整理了本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录需要这份系统化的资料的朋友，可以点击这里获取[外链图片转存中…(img-6ehWIz01-1715627069470)]本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录需要这份系统化的资料的朋友，可以点击这里获取。

数据挖掘实验：使用 Hadoop 实现 WordCount 应用

ProgramNovice的博客

09-19

6542

数据挖掘实验：使用 Hadoop 实现 WordCount 应用

hadoop自带的wordcount

姚锦叙|java|solr|hadoop|hbase

11-24

182

1、通过hadoop的命令在HDFS上创建/tmp/workcount目录，命令如下：bin/hadoop fs -mkdir /tmp/wordcount 2、通过copyFromLocal命令把本地的word.txt复制到HDFS上，命令如下：bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.tx...

运行Hadoop自带的wordcount程序

weixin_54763080的博客

12-21

659

运行share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar这个java程序（与自己的Hadoop系统版本对应）查看云端的/data/output/my_wordcount/part-r-00000文件。出现下面六个进程则说明启动成功。

查看并使用hadoop自带的示例程序（以wordcount为例）

Mocode的博客

03-15

3766

以wordcount为例，使用hadoop自带的示例程序。记录了一些注意事项以及可能出现的错误信息。

使用hadoop实现WordCount实验报告.docx

06-10

3. **运行WordCount程序**：调用Hadoop自带的Java程序`hadoop-mapreduce-examples-2.7.7.jar`，指定输入和输出参数。 ### 四、实验结果成功运行WordCount后，可以在指定的输出文件夹（例如/output）中看到统计...

手把手教你-Hadoop集群搭建1

06-08

手把手教你-Hadoop集群搭建1

hadoop的wordcount实例代码

08-28

在WordCount实例代码中，Reducer组件使用了IntSumReducer类，继承自org.apache.hadoop.mapreduce.Reducer类，负责将Mapper组件的输出结果合并，并生成最终的单词出现次数统计结果。 Driver组件负责协调MapReduce...

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

12-06

本实验报告旨在介绍使用 Hadoop 编程实现 wordcount 单词统计程序的步骤和代码实现。实验的目的在于熟悉 Hadoop 虚拟机的安装与环境的配置，初步理解 MapReduce 方法，熟悉相关语法，基本掌握编程框架。实验环境：...

hadoop实现wordcount

05-24

在这个项目中，我们将探讨如何使用Hadoop进行大规模文本数据的情感分析，并统计单词出现的频率。 MapReduce是Hadoop的核心组件之一，它将大型任务分解为小的子任务，这些子任务在分布式集群的不同节点上并行处理，...

Hadoop2.7运行自带的wordcount

l1394049664的博客

09-09

2862

目录 1、准备数据文件 2、把文件上传到HDFS上 3、执行命令 4、原理解析 1、准备数据文件 word1.txt i love the world word2.txt i love the world , hello ni hao 2、把文件上传到HDFS上 hadoop fs -mkdir /input hadoop fs -put word1.txt /input ...

运行hadoop自带的word count小案例

浅陌夏初。的博客

10-08

3471

1. 创建一个文件上传目录 1）首先进入到hadoop文件夹下（命令：cd /usr/local/hadoop）； 2）创建目录“/test/wordcount”，用来存放hadoop自带的wordcount例子的数据文件。 bin/hadoop fs -mkdir -p /test/wordcount （创建上传文件目录） bin/hadoop fs -ls / （查看创建...

hadoop运行workcount_hadoop：如何运行自带wordcount

weixin_26963033的博客

01-27

1145

hadoop：如何运行自带wordcount转载自：http://www.aboutyun.com/thread-7713-1-1.html1.找到examples例子我们需要找打这个例子的位置：首先需要找到你的hadoop文件夹，然后依照下面路径：/hadoop/share/hadoop/mapreduce会看到如下图：hadoop-mapreduce-examples-2.2.0.jar第二...

[Hadoop]运行自带wordcount程序

weixin_44566432的博客

04-22

1336

话不多说。 1、开启Hadoop服务首先到Hadoop安装目录下的/sbin，然后运行./start-all.sh 当看到上面六个服务说明已经正常启动了，那么继续下一步 2、回到Hadoop安装目录下，执行下面命令创建文件夹及文件 bin/hadoop fs -mkdir -p /test/wordcount #创建一个test/wordcount文件目录 ...

hadoop wordcount

yandao的博客

06-21

2221

wordcount

Hadoop基础学习笔记系列（五）Hadoop应用简介

ElsaWu的布袋子

02-14

603

文章目录1 应用分类数据库Querying机器学习2 Pig3 Hive4 HBase特征栗子 1 应用分类数据库 Avro：Apache Avro™ 1.11.0 Documentation Apache Avro™是一个数据序列化系统。 Avro提供: 丰富的数据结构。一种紧凑、快速的二进制数据格式。一个容器文件，用来存储持久数据。远程过程调用(RPC)。与动态语言的简单集成。代码生成不需要读取或写入数据文件，也不需要使用或实现RPC协议。代码生成是一种可选的优化，只值得在静态类型语言中实

Hadoop之——WordCount案例与执行本地jar包

Helen_1997_1997的博客

02-12

4616

Hadoop之——WordCount案例与执行本地jar包

运行hadoop自带的wordcount

06-28

### 回答1：运行 Hadoop 自带的 wordcount 程序需要几个步骤: 1. 准备输入文件: 将要统计词频的文本文件准备好，并上传到 Hadoop 集群上。 2. 创建输入路径: 使用 Hadoop 命令行工具创建文本文件的输入路径。 3. 运行 wordcount 程序: 使用 Hadoop 命令行工具运行 wordcount 程序，并指定输入路径和输出路径。 4. 检查输出结果: 使用 Hadoop 命令行工具检查 wordcount 程序的输出结果。具体的命令行操作可以参考Hadoop的文档。 ### 回答2： Hadoop是当今最流行的分布式计算系统之一，它能够处理海量数据并实现高效的数据分析。而WordCount则是Hadoop中最简单的MapReduce程序之一，用于统计指定文本中每个单词出现的次数。下面我将分为四个步骤来详细介绍如何运行Hadoop自带的WordCount程序。第一步，准备好Hadoop环境。首先需要下载安装好Hadoop，然后启动Hadoop的相关服务，包括NameNode、DataNode、ResourceManager、NodeManager等。最后，新建一个Hadoop用户。第二步，将待处理的文本文件放在Hadoop文件系统中。可以使用命令hadoop fs -put命令将本地文件上传到Hadoop分布式文件系统（HDFS）中。第三步，编写WordCount程序。在Hadoop分布式文件系统的根目录下，有一个examples目录，里面包含了范例代码。我们只需要找到WordCount的实现代码WordCount.java，将代码拷贝到自己的代码目录中，然后进行相应的修改即可。第四步，运行WordCount程序。首先需要将代码编译成jar包，然后使用命令hadoop jar WordCount.jar WordCount /input /output来执行程序。其中，/input代表输入文件的路径，/output代表输出文件的路径。执行完毕后，可以使用hadoop fs -cat /output/part-r-00000命令来查看统计结果。总之，运行Hadoop自带的WordCount程序虽然简单，但是涉及到了整个Hadoop环境的搭建和代码实现，需要认真仔细地操作。只有熟练掌握了这些基础知识，才能更好地理解Hadoop的分布式计算特性，并进行更加高效、复杂的数据处理和分析。 ### 回答3： Hadoop是一个基于Java的分布式计算框架，它可以将大规模数据处理任务分配到多个节点上并行处理，从而大大提高处理效率。在Hadoop中，wordcount是一个非常经典的例子，它可以统计文本中各个单词的频次。运行hadoop自带的wordcount，一般可以分为以下几个步骤： 1. 准备数据在Hadoop中，一般需要将要处理的数据放在HDFS（Hadoop分布式文件系统）中，因此首先需要将要处理的文本文件上传到HDFS中。可以使用hadoop fs -put命令将本地文件上传到HDFS中。 2. 编写MapReduce程序在Hadoop中，MapReduce程序是实现数据处理逻辑的核心。编写MapReduce程序最基本的步骤分为两步：（1）编写Map函数：对于输入的每个键值对，Map函数会将其转换成若干个键值对，并输出到Reduce函数中。在wordcount中，Map函数的输入是文本文件中的一行，处理逻辑是将这一行进行切分，然后输出每个单词及其出现次数。（2）编写Reduce函数：Reduce函数将相同键的值合并，并输出到文件中。在wordcount中，Reduce函数的输入是Map函数输出的若干个键值对，处理逻辑是将相同单词的值合并成一个键值对，输出结果。 3. 执行MapReduce程序执行MapReduce程序可以使用hadoop jar命令，在命令行中输入框架的jar包和配置文件，然后指定输入和输出域即可。具体命令如下： hadoop jar hadoop-mapreduce-examples.jar wordcount input output 其中，hadoop-mapreduce-examples.jar是Hadoop自带的一些示例程序的jar包；input是要处理的输入文件路径；output是输出结果的保存路径。 4. 查看结果 MapReduce程序运行完后，可以使用hadoop fs -cat命令将结果文件输出到控制台上，也可以使用hadoop fs -get命令将结果文件下载到本地查看。总的来说，运行hadoop自带的wordcount程序需要准备数据、编写MapReduce程序、执行MapReduce程序和查看结果等几个步骤。掌握这些基本的步骤后，我们可以进一步学习Hadoop和MapReduce的相关知识，实现更加复杂的数据处理任务。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交