一、环境介绍
通过在本机Oracle VM VirtualBox上安装Ubuntu系统,并在Ubuntu系统中安装Hadoop,Eclipse。下载文件jdk-8u162-linux-x64.tar.gz并解压配置JAVA环境变量。对Hadoop进行伪分布式的配置,成功显示HDFS网页后到Ubuntu自带的软件中心下载Eclipse。完成安装后将需要分析的文件拖放到Ubuntu系统中,并在Eclipse中创建并配置好MapReduce所需要的环境。
二、数据来源及数据上传
为Ubuntu安装增强功能,并开启文件双向拖放功能:
图 1
图 2
文件已经拖放到Ubuntu系统/home/hadoop文件夹中:
图 3
三、数据上传结果查看
提前启动好hadoop,将lpj.txt上传至HDFS:
图 4
确认HDFS input文件里面是否收到lpj.txt。
图 5
四、数据处理过程的描述
1.要在Eclipse上编译和运行MapReduce程序,需要安装Hadoop-Eclipse-Plugin,将下载好的hadoop2x-eclipse-plugin-master.zip文件解压到“/usr/lib/eclipse/plugins”目录中
图 6
图 7
2.完成上一个步骤后,我们需要重启Eclipse使插件生效