hadoop自带的wordcount小案例

1.建立文件目录并生成文件

[root@centos hadoop]# ls
hadoop-1.2.1  hadoop-1.2.1.tar.gz
[root@centos hadoop]# mkdir  work
[root@centos hadoop]# ls
hadoop-1.2.1  hadoop-1.2.1.tar.gz  work
[root@centos hadoop]# cd work/
[root@centos work]# mkdir wordcount
[root@centos work]# ls
wordcount
[root@centos work]# cd wordcount/
  1. 向文件里写入文本

    [root@centos wordcount]# echo “hello world”>test1.txt
    [root@centos wordcount]# echo “hello hadoop”>test2.txt
    [root@centos wordcount]# echo “hello hadoop centos”>test3.txt
    [root@centos wordcount]# ls
    test1.txt test2.txt test3.txt
    [root@centos wordcount]#
    [root@centos wordcount]# cd ..
    [root@centos work]# ls -l wordcount
    总用量 12
    -rw-r–r–. 1 root root 12 8月 18 01:52 test1.txt
    -rw-r–r–. 1 root root 13 8月 18 01:52 test2.txt
    -rw-r–r–. 1 root root 20 8月 18 01:53 test3.txt
    [root@cento

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 运行 Hadoopwordcount 程序需要几个步骤: 1. 准备输入文件: 将要统计词频的文本文件准备好,并上传到 Hadoop 集群上。 2. 创建输入路径: 使用 Hadoop 命令行工具创建文本文件的输入路径。 3. 运行 wordcount 程序: 使用 Hadoop 命令行工具运行 wordcount 程序,并指定输入路径和输出路径。 4. 检查输出结果: 使用 Hadoop 命令行工具检查 wordcount 程序的输出结果。 具体的命令行操作可以参考Hadoop的文档。 ### 回答2: Hadoop是当今最流行的分布式计算系统之一,它能够处理海量数据并实现高效的数据分析。而WordCount则是Hadoop中最简单的MapReduce程序之一,用于统计指定文本中每个单词出现的次数。下面我将分为四个步骤来详细介绍如何运行HadoopWordCount程序。 第一步,准备好Hadoop环境。首先需要下载安装好Hadoop,然后启动Hadoop的相关服务,包括NameNode、DataNode、ResourceManager、NodeManager等。最后,新建一个Hadoop用户。 第二步,将待处理的文本文件放在Hadoop文件系统中。可以使用命令hadoop fs -put命令将本地文件上传到Hadoop分布式文件系统(HDFS)中。 第三步,编写WordCount程序。在Hadoop分布式文件系统的根目录下,有一个examples目录,里面包含了范例代码。我们只需要找到WordCount的实现代码WordCount.java,将代码拷贝到自己的代码目录中,然后进行相应的修改即可。 第四步,运行WordCount程序。首先需要将代码编译成jar包,然后使用命令hadoop jar WordCount.jar WordCount /input /output来执行程序。其中,/input代表输入文件的路径,/output代表输出文件的路径。 执行完毕后,可以使用hadoop fs -cat /output/part-r-00000命令来查看统计结果。 总之,运行HadoopWordCount程序虽然简单,但是涉及到了整个Hadoop环境的搭建和代码实现,需要认真仔细地操作。只有熟练掌握了这些基础知识,才能更好地理解Hadoop的分布式计算特性,并进行更加高效、复杂的数据处理和分析。 ### 回答3: Hadoop是一个基于Java的分布式计算框架,它可以将大规模数据处理任务分配到多个节点上并行处理,从而大大提高处理效率。在Hadoop中,wordcount是一个非常经典的例子,它可以统计文本中各个单词的频次。运行hadoopwordcount,一般可以分为以下几个步骤: 1. 准备数据 在Hadoop中,一般需要将要处理的数据放在HDFS(Hadoop分布式文件系统)中,因此首先需要将要处理的文本文件上传到HDFS中。可以使用hadoop fs -put命令将本地文件上传到HDFS中。 2. 编写MapReduce程序 在Hadoop中,MapReduce程序是实现数据处理逻辑的核心。编写MapReduce程序最基本的步骤分为两步: (1)编写Map函数:对于输入的每个键值对,Map函数会将其转换成若干个键值对,并输出到Reduce函数中。在wordcount中,Map函数的输入是文本文件中的一行,处理逻辑是将这一行进行切分,然后输出每个单词及其出现次数。 (2)编写Reduce函数:Reduce函数将相同键的值合并,并输出到文件中。在wordcount中,Reduce函数的输入是Map函数输出的若干个键值对,处理逻辑是将相同单词的值合并成一个键值对,输出结果。 3. 执行MapReduce程序 执行MapReduce程序可以使用hadoop jar命令,在命令行中输入框架的jar包和配置文件,然后指定输入和输出域即可。具体命令如下: hadoop jar hadoop-mapreduce-examples.jar wordcount input output 其中,hadoop-mapreduce-examples.jar是Hadoop的一些示例程序的jar包;input是要处理的输入文件路径;output是输出结果的保存路径。 4. 查看结果 MapReduce程序运行完后,可以使用hadoop fs -cat命令将结果文件输出到控制台上,也可以使用hadoop fs -get命令将结果文件下载到本地查看。 总的来说,运行hadoopwordcount程序需要准备数据、编写MapReduce程序、执行MapReduce程序和查看结果等几个步骤。掌握这些基本的步骤后,我们可以进一步学习Hadoop和MapReduce的相关知识,实现更加复杂的数据处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值