在命令行中运行Hadoop自带的WordCount程序

Hadoop集群搭建完之后,接下来就需要开始尝试去使用它啦。我们可以在这个集群上运行Hadoop的“Hello World程序”——WordCount单词计数。这个程序的代码在我们下载安装Hadoop的时候就已经打包下载好了,我们只需要直接去使用就可以了。

(一)、启动hdfs进程服务:

进入hadoop的目录中:cd Hadoop/hadoop-2.7.7

进入相应目录后启动HDFS的进程服务

启动后界面如下:

通过jps查看HDFS是否确实已经被启动(jps是一个java程序,它的作用是查看当前Java虚拟机运行着哪些程序)

在图中我们可以看到 DataNode、NameNode和SecondaryNameNode这三个组成HDFS系统的进程,说明HDFS系统已经成功启动。

(二)、使用HDFS服务运行WordCount程序

1.在云端创建一个/data/input的文件夹结构
bin/hdfs dfs -mkdir -p /data/input

2.在本地创建一个my_wordcount.txt 
touch my_wordcount.txt
3.编辑my_wordcount.txt文件,输入一些字符
nano my_wordcount.txt

4.把本地的my_wordcount.txt文件上传到云端,由主机进行文件的分布式存储。
bin/hdfs dfs -put my_wordcount.txt /data/input

(这个可以去localhost:9000的可视化界面中查看编辑。但是会特别卡,不建议去可视化界面看。)
5.查看云端的/data/input文件夹下面有哪些文件
bin/hdfs dfs -ls /data/input

我们会看到其中有个my_wordcount.txt文件。说明我们刚刚已经成功把my_wordcount.txt文件传输到云端了。

6.运行share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar这个java程序,调用wordcount方法。/data/input/my_wordcount.txt是输入参数,待处理的文件 /data/output/my_wordcount是输出参数,保存处理后的数据的文件夹名字
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/input/my_wordcount.txt /data/out/my_wordcount


7.查看云端的/data/output/my_wordcount/part-r-00000文件。
bin/hdfs dfs -cat /data/out/my_wordcount/part-r-00000

  • 24
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 运行 Hadoop 自带wordcount 程序需要几个步骤: 1. 准备输入文件: 将要统计词频的文本文件准备好,并上传到 Hadoop 集群上。 2. 创建输入路径: 使用 Hadoop 命令行工具创建文本文件输入路径。 3. 运行 wordcount 程序: 使用 Hadoop 命令行工具运行 wordcount 程序,并指定输入路径和输出路径。 4. 检查输出结果: 使用 Hadoop 命令行工具检查 wordcount 程序的输出结果。 具体的命令行操作可以参考Hadoop的文档。 ### 回答2: Hadoop是当今最流行的分布式计算系统之一,它能够处理海量数据并实现高效的数据分析。而WordCount则是Hadoop最简单的MapReduce程序之一,用于统计指定文本每个单词出现的次数。下面我将分为四个步骤来详细介绍如何运行Hadoop自带WordCount程序。 第一步,准备好Hadoop环境。首先需要下载安装好Hadoop,然后启动Hadoop的相关服务,包括NameNode、DataNode、ResourceManager、NodeManager等。最后,新建一个Hadoop用户。 第二步,将待处理的文本文件放在Hadoop文件系统。可以使用命令hadoop fs -put命令将本地文件上传到Hadoop分布式文件系统(HDFS)。 第三步,编写WordCount程序。在Hadoop分布式文件系统的根目录下,有一个examples目录,里面包含了范例代码。我们只需要找到WordCount的实现代码WordCount.java,将代码拷贝到自己的代码目录,然后进行相应的修改即可。 第四步,运行WordCount程序。首先需要将代码编译成jar包,然后使用命令hadoop jar WordCount.jar WordCount /input /output来执行程序。其,/input代表输入文件的路径,/output代表输出文件的路径。 执行完毕后,可以使用hadoop fs -cat /output/part-r-00000命令来查看统计结果。 总之,运行Hadoop自带WordCount程序虽然简单,但是涉及到了整个Hadoop环境的搭建和代码实现,需要认真仔细地操作。只有熟练掌握了这些基础知识,才能更好地理解Hadoop的分布式计算特性,并进行更加高效、复杂的数据处理和分析。 ### 回答3: Hadoop是一个基于Java的分布式计算框架,它可以将大规模数据处理任务分配到多个节点上并行处理,从而大大提高处理效率。在Hadoopwordcount是一个非常经典的例子,它可以统计文本各个单词的频次。运行hadoop自带wordcount,一般可以分为以下几个步骤: 1. 准备数据 在Hadoop,一般需要将要处理的数据放在HDFS(Hadoop分布式文件系统),因此首先需要将要处理的文本文件上传到HDFS。可以使用hadoop fs -put命令将本地文件上传到HDFS。 2. 编写MapReduce程序Hadoop,MapReduce程序是实现数据处理逻辑的核心。编写MapReduce程序最基本的步骤分为两步: (1)编写Map函数:对于输入的每个键值对,Map函数会将其转换成若干个键值对,并输出到Reduce函数。在wordcount,Map函数的输入是文本文件的一行,处理逻辑是将这一行进行切分,然后输出每个单词及其出现次数。 (2)编写Reduce函数:Reduce函数将相同键的值合并,并输出到文件。在wordcount,Reduce函数的输入是Map函数输出的若干个键值对,处理逻辑是将相同单词的值合并成一个键值对,输出结果。 3. 执行MapReduce程序 执行MapReduce程序可以使用hadoop jar命令,在命令行输入框架的jar包和配置文件,然后指定输入和输出域即可。具体命令如下: hadoop jar hadoop-mapreduce-examples.jar wordcount input output 其hadoop-mapreduce-examples.jar是Hadoop自带的一些示例程序的jar包;input是要处理的输入文件路径;output是输出结果的保存路径。 4. 查看结果 MapReduce程序运行完后,可以使用hadoop fs -cat命令将结果文件输出到控制台上,也可以使用hadoop fs -get命令将结果文件下载到本地查看。 总的来说,运行hadoop自带wordcount程序需要准备数据、编写MapReduce程序、执行MapReduce程序和查看结果等几个步骤。掌握这些基本的步骤后,我们可以进一步学习Hadoop和MapReduce的相关知识,实现更加复杂的数据处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值