【大数据】Hadoop WordCount示例

最新推荐文章于 2024-03-14 15:06:21 发布

根号二点五

最新推荐文章于 2024-03-14 15:06:21 发布

阅读量598

点赞数 1

分类专栏：大数据学习总结类文章标签：大数据 hadoop spark

本文链接：https://blog.csdn.net/qq_44759710/article/details/107077764

版权

本文介绍了在64位Oracle Linux 6.4上，使用JDK 1.8.0_131和Hadoop 2.7.3进行大数据处理的WordCount示例。通过搭建Hadoop分布式环境，利用hadoop-mapreduce-examples-2.7.jar包，将机场代码数据文件上传到HDFS，并运行wordcount程序进行单词计数，最终结果存储在/output/part-r-00000。

摘要由CSDN通过智能技术生成

条件

采用64位Oracle Linux 6.4, JDK：1.8.0_131 64位, Hadoop：2.7.3
Spark集群实验环境共包含3台服务器，每台机器的主要参数如表所示：

服务器	HOSTNAME	IP	功能
spark1	spark1	92.16.17.1	NN/DN/RM Master/Worker
spark2	spark2	92.16.17.2	DN/NM/Worker
spark3	spark3	92.16.17.3	DN/NM/Worker

过程

首先搭建好 Hadoop 分布式环境。在此之上，我们可以进行 MapReduce 相关的开发工作，本实验使用两种方式实现 MapReduce 中典型的 wordcount 作业
使用官方提供的包含测试程序的包 hadoop-mapreduce-examples-
2.7.jar，此包已上传至/stage 目录
wordcount 测试程序提供了对日志文件中单词的计数统功能，测试用数据文件 airport-codes-na.txt 是美国机场数据文件，该文件已上在 /stage 目录下：
在这里插入图片描述
实现的该作业的第一步就是需要把airport-codes-na