手把手教你使用Hadoop自带的wordcount程序

打开终端,切换到hadoop用户,启动Hadoop

su hadoop
start-all.sh
mr-jobhistory-daemon.sh start historyserver

jps看一看Hadoop服务进程有没有运行成功

jps

我们在hadoop目录里新建一个test文件夹,然后新建两个文本,一个内容是“Hello World”,另一个内容是“Hello Hadoop”

cd $HADOOP_HOME
mkdir test
echo Hello World >> test/test1.txt
echo Hello Hadoop >> test/test2.txt

在HDFS上创建input文件夹

hadoop fs -mkdir /input

上传本地test目录中的文件到HDFS的input目录下

hadoop fs -put test/* /input

运行wordcount示例程序

cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output

WordCount输出结果

查看运行结果,首先查看HDFS的output路径下的文件信息。

hadoop fs -ls /output

可以看到在output目录下生成了2个文件,成功文件和结果文件。

最后查看结果文件的具体结果

hadoop fs -cat /output/part-r-00000

如果希望将Hadoop运行结果输出到本地文件系统,执行下面的命令

hadoop fs -get /output/* $HADOOP_HOME/test

  • 7
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 运行 Hadoop 自带wordcount 程序需要几个步骤: 1. 准备输入文件: 将要统计词频的文本文件准备好,并上传到 Hadoop 集群上。 2. 创建输入路径: 使用 Hadoop 命令行工具创建文本文件的输入路径。 3. 运行 wordcount 程序: 使用 Hadoop 命令行工具运行 wordcount 程序,并指定输入路径和输出路径。 4. 检查输出结果: 使用 Hadoop 命令行工具检查 wordcount 程序的输出结果。 具体的命令行操作可以参考Hadoop的文档。 ### 回答2: Hadoop是当今最流行的分布式计算系统之一,它能够处理海量数据并实现高效的数据分析。而WordCount则是Hadoop中最简单的MapReduce程序之一,用于统计指定文本中每个单词出现的次数。下面我将分为四个步骤来详细介绍如何运行Hadoop自带WordCount程序。 第一步,准备好Hadoop环境。首先需要下载安装好Hadoop,然后启动Hadoop的相关服务,包括NameNode、DataNode、ResourceManager、NodeManager等。最后,新建一个Hadoop用户。 第二步,将待处理的文本文件放在Hadoop文件系统中。可以使用命令hadoop fs -put命令将本地文件上传到Hadoop分布式文件系统(HDFS)中。 第三步,编写WordCount程序。在Hadoop分布式文件系统的根目录下,有一个examples目录,里面包含了范例代码。我们只需要找到WordCount的实现代码WordCount.java,将代码拷贝到自己的代码目录中,然后进行相应的修改即可。 第四步,运行WordCount程序。首先需要将代码编译成jar包,然后使用命令hadoop jar WordCount.jar WordCount /input /output来执行程序。其中,/input代表输入文件的路径,/output代表输出文件的路径。 执行完毕后,可以使用hadoop fs -cat /output/part-r-00000命令来查看统计结果。 总之,运行Hadoop自带WordCount程序虽然简单,但是涉及到了整个Hadoop环境的搭建和代码实现,需要认真仔细地操作。只有熟练掌握了这些基础知识,才能更好地理解Hadoop的分布式计算特性,并进行更加高效、复杂的数据处理和分析。 ### 回答3: Hadoop是一个基于Java的分布式计算框架,它可以将大规模数据处理任务分配到多个节点上并行处理,从而大大提高处理效率。在Hadoop中,wordcount是一个非常经典的例子,它可以统计文本中各个单词的频次。运行hadoop自带wordcount,一般可以分为以下几个步骤: 1. 准备数据 在Hadoop中,一般需要将要处理的数据放在HDFSHadoop分布式文件系统)中,因此首先需要将要处理的文本文件上传到HDFS中。可以使用hadoop fs -put命令将本地文件上传到HDFS中。 2. 编写MapReduce程序Hadoop中,MapReduce程序是实现数据处理逻辑的核心。编写MapReduce程序最基本的步骤分为两步: (1)编写Map函数:对于输入的每个键值对,Map函数会将其转换成若干个键值对,并输出到Reduce函数中。在wordcount中,Map函数的输入是文本文件中的一行,处理逻辑是将这一行进行切分,然后输出每个单词及其出现次数。 (2)编写Reduce函数:Reduce函数将相同键的值合并,并输出到文件中。在wordcount中,Reduce函数的输入是Map函数输出的若干个键值对,处理逻辑是将相同单词的值合并成一个键值对,输出结果。 3. 执行MapReduce程序 执行MapReduce程序可以使用hadoop jar命令,在命令行中输入框架的jar包和配置文件,然后指定输入和输出域即可。具体命令如下: hadoop jar hadoop-mapreduce-examples.jar wordcount input output 其中,hadoop-mapreduce-examples.jar是Hadoop自带的一些示例程序的jar包;input是要处理的输入文件路径;output是输出结果的保存路径。 4. 查看结果 MapReduce程序运行完后,可以使用hadoop fs -cat命令将结果文件输出到控制台上,也可以使用hadoop fs -get命令将结果文件下载到本地查看。 总的来说,运行hadoop自带wordcount程序需要准备数据、编写MapReduce程序、执行MapReduce程序和查看结果等几个步骤。掌握这些基本的步骤后,我们可以进一步学习Hadoop和MapReduce的相关知识,实现更加复杂的数据处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值