配置准备
- 虚拟机安装
内容链接:https://blog.csdn.net/qq_47433566/article/details/114821112 - Hadoop安装配置
内容链接:https://blog.csdn.net/qq_47433566/article/details/114806444
本地创建文本文件
接着我们已有的Hadoop集群环境,第一台虚拟机为主机Cat
,第二台为Dog
,第三台为Pig
,在主机Cat
上实现分布式集群单词统计,步骤如下。
首先:cd /export/servers/hadoop/share/hadoop/mapreduce
wordcount程序在hadoop的share目录下。
> mkdir input //我们新建一个文件夹
> cd input/
> echo “Hello world Happy” > file1.txt //写入以下三条文本内容
> echo “Hello world Yangjingwen” > file2.txt
> echo “Hello world Xuwenli” > file3.txt
> ls //查看三条内容是否存在
下图中我使用的是另一套Hadoop高可用集群中的主机Bear,单词统计只需是主机上执行都能实现,所以这里不影响,我们就把它当作Cat主机。
将文件上传到hadoop
> hadoop fs -mkdir /wordcount //创建一个目录,用于保存MapReduce任务的输入文件,这个文件夹我们会在50070端口上查看到
> hadoop fs -ls / //ls查看是否创建成功
> cd ..
> ls
> hadoop fs -put input/* /wordcount //上传该文件到HDFS中
> hadoop fs -ls /wordcount
启用hadoop自带单词统计进行处理
> cd /export/servers/hadoop/share/hadoop/
> ls
> cd mapreduce/
> ls
特别提示:下面这条命令的路径一定要写好,否则就会报错,如果所写的路径存在的话也会报错。
> hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /wordcount /print
查看结果
> hadoop fs -ls /print //查看文件
> hadoop fs -cat /print/part-r-00000 //查看单词统计结果,默认生成的文件part-r-00000
到这我们便完成了!!!恭喜恭喜了,小可爱!!!!继续加油哦
相关内容:Hadoop数字统计:https://editor.csdn.net/md?not_checkout=1&articleId=114851523