前言
学习Hadoop的第一案例,大家都喜欢使用单词统计demo
该功能的实现,使用了hadoop自带的jar包:hadoop-mapreduce-examples-2.7.4.jar
准备工作
请阅读文章 https://www.bilibili.com/read/cv7591643
步骤
1 打开HDFS的UI界面,查看HDFS中是否有数据文件,默认是没有数据文件。
2 准备文本文件,在Linux系统上编辑一个文本文件,然后上传至HDFS上。
#在linux系统中创建一个目录,创建一个文件,写点内容
mkdir -p /export/data
cd /export/data
vi word.txt (写点内容)
#将该文件上传到hdfs中目录下: /wordcount/input/
hadoop fs -mkdir -p /wordcount/input
hadoop fs -put /export/data/word.txt /wordcount/input/
3 运行hadoop-mapreduce-examples-2.7.4.jar包,实现词频统计。
重要
务必要关闭所有机器hadoop01,hadoop02,hadoop03的防护墙,不然执行会报错
hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /wordcount/input /wordcount/output
4 查看UI界面,Yarn集群UI界面出现程序运行成功的信息。HDFS集群UI界面出现了结果文件。
总结
通过这样的demo,可以初次体验Hadoop的应用。