Hadoop 自带WordCount 操作步骤

本文介绍了如何利用Hadoop自带的WordCount程序处理文本数据。首先,通过hadoop fs命令上传数据到HDFS,接着将test1.txt文件放入指定目录。然后,使用hadoop jar命令运行WordCount示例,指定输入和输出路径。最后,展示如何通过hadoop dfs命令查看处理后的结果。
摘要由CSDN通过智能技术生成
运行一个wordcount 任务的命令:bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output


说明:input 指定的是执行map任务是的数据源所在目录,output 是指定reduce任务 执行完后将结果输出的目录


data在配置文件配完后是不需要见这个目录的
name目录是 执行 hadoop namenode -format 才会生成的目录,也不是我们手动建的;


countworld的基本流程


在linux一个input目录下见两个文件
echo "Hello world Hello me! cwq solo"  >test1.txt
echo " Hello world Hello you! solo"  >test2.txt


hadoop fs -put /input/ /input


bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output
2.6以后的版本不用指定类名
bin/hadoop jar /usr/hddemo/wordcount.jar input output


Hadoop自带的运行 wordcount 例子的 jar 包在
/share/hadoop/mapreduce/hadoop-mapreduce-example.jar
用这个包要这样写


hadoop jar /home/yanzefeng/apps/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapr
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 运行 Hadoop 自带wordcount 程序需要几个步骤: 1. 准备输入文件: 将要统计词频的文本文件准备好,并上传到 Hadoop 集群上。 2. 创建输入路径: 使用 Hadoop 命令行工具创建文本文件的输入路径。 3. 运行 wordcount 程序: 使用 Hadoop 命令行工具运行 wordcount 程序,并指定输入路径和输出路径。 4. 检查输出结果: 使用 Hadoop 命令行工具检查 wordcount 程序的输出结果。 具体的命令行操作可以参考Hadoop的文档。 ### 回答2: Hadoop是当今最流行的分布式计算系统之一,它能够处理海量数据并实现高效的数据分析。而WordCount则是Hadoop中最简单的MapReduce程序之一,用于统计指定文本中每个单词出现的次数。下面我将分为四个步骤来详细介绍如何运行Hadoop自带WordCount程序。 第一步,准备好Hadoop环境。首先需要下载安装好Hadoop,然后启动Hadoop的相关服务,包括NameNode、DataNode、ResourceManager、NodeManager等。最后,新建一个Hadoop用户。 第二步,将待处理的文本文件放在Hadoop文件系统中。可以使用命令hadoop fs -put命令将本地文件上传到Hadoop分布式文件系统(HDFS)中。 第三步,编写WordCount程序。在Hadoop分布式文件系统的根目录下,有一个examples目录,里面包含了范例代码。我们只需要找到WordCount的实现代码WordCount.java,将代码拷贝到自己的代码目录中,然后进行相应的修改即可。 第四步,运行WordCount程序。首先需要将代码编译成jar包,然后使用命令hadoop jar WordCount.jar WordCount /input /output来执行程序。其中,/input代表输入文件的路径,/output代表输出文件的路径。 执行完毕后,可以使用hadoop fs -cat /output/part-r-00000命令来查看统计结果。 总之,运行Hadoop自带WordCount程序虽然简单,但是涉及到了整个Hadoop环境的搭建和代码实现,需要认真仔细地操作。只有熟练掌握了这些基础知识,才能更好地理解Hadoop的分布式计算特性,并进行更加高效、复杂的数据处理和分析。 ### 回答3: Hadoop是一个基于Java的分布式计算框架,它可以将大规模数据处理任务分配到多个节点上并行处理,从而大大提高处理效率。在Hadoop中,wordcount是一个非常经典的例子,它可以统计文本中各个单词的频次。运行hadoop自带wordcount,一般可以分为以下几个步骤: 1. 准备数据 在Hadoop中,一般需要将要处理的数据放在HDFS(Hadoop分布式文件系统)中,因此首先需要将要处理的文本文件上传到HDFS中。可以使用hadoop fs -put命令将本地文件上传到HDFS中。 2. 编写MapReduce程序 在Hadoop中,MapReduce程序是实现数据处理逻辑的核心。编写MapReduce程序最基本的步骤分为两步: (1)编写Map函数:对于输入的每个键值对,Map函数会将其转换成若干个键值对,并输出到Reduce函数中。在wordcount中,Map函数的输入是文本文件中的一行,处理逻辑是将这一行进行切分,然后输出每个单词及其出现次数。 (2)编写Reduce函数:Reduce函数将相同键的值合并,并输出到文件中。在wordcount中,Reduce函数的输入是Map函数输出的若干个键值对,处理逻辑是将相同单词的值合并成一个键值对,输出结果。 3. 执行MapReduce程序 执行MapReduce程序可以使用hadoop jar命令,在命令行中输入框架的jar包和配置文件,然后指定输入和输出域即可。具体命令如下: hadoop jar hadoop-mapreduce-examples.jar wordcount input output 其中,hadoop-mapreduce-examples.jar是Hadoop自带的一些示例程序的jar包;input是要处理的输入文件路径;output是输出结果的保存路径。 4. 查看结果 MapReduce程序运行完后,可以使用hadoop fs -cat命令将结果文件输出到控制台上,也可以使用hadoop fs -get命令将结果文件下载到本地查看。 总的来说,运行hadoop自带wordcount程序需要准备数据、编写MapReduce程序、执行MapReduce程序和查看结果等几个步骤。掌握这些基本的步骤后,我们可以进一步学习Hadoop和MapReduce的相关知识,实现更加复杂的数据处理任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值