条件
采用64位Oracle Linux 6.4, JDK:1.8.0_131 64位, Hadoop:2.7.3
Spark集群实验环境共包含3台服务器,每台机器的主要参数如表所示:
服务器 | HOSTNAME | IP | 功能 |
---|---|---|---|
spark1 | spark1 | 92.16.17.1 | NN/DN/RM Master/Worker |
spark2 | spark2 | 92.16.17.2 | DN/NM/Worker |
spark3 | spark3 | 92.16.17.3 | DN/NM/Worker |
过程
首先搭建好 Hadoop 分布式环境。在此之上,我们可以进行 MapReduce 相关的开发工作,本实验使用两种方式实现 MapReduce 中典型的 wordcount 作业
使用官方提供的包含测试程序的包 hadoop-mapreduce-examples-
2.7.jar,此包已上传至/stage 目录
wordcount 测试程序提供了对日志文件中单词的计数统功能,测试用数据文件 airport-codes-na.txt 是美国机场数据文件,该文件已上在 /stage 目录下:
实现的该作业的第一步就是需要把airport-codes-na