- 需求描述
本次实验,我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统,然后要配置Java环境,安装JDK。Ubuntu提供了一个健壮,功能丰富的计算环境。
二、环境介绍
Ubuntu 14.04
Hadoop 2.6.0(伪分布式)
Eclipse 3.8
在VirtualBox上安装Ubuntu。在Ubuntu中安装Hadoop,Eclipse。安装Java环境,下载文件jdk-8u162-linux-x64.tar.gz(可以其他版本)。配置Hadoop伪分布式。在Ubuntu软件中心中下载并安装Eclipse。
三、数据来源及数据上传
数据来源:网查数据英文20000字
- 数据上传结果查看
在hadoop目录下使用命令:
./bin/hadoop dfs -put /usr/local/hadoop/test/1.txt /input
- 数据处理过程的描述
安装 Hadoop-Eclipse-Plugin
要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin,可下载 Github 上的 hadoop2x-eclipse-plugin(备用下载地址:hadoop2x-eclipse-plugin-master.zip_免费高速下载|百度网盘-分享无限制)。
下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (还提供了 2.2.0 和 2.4.1 版本)复制到 Eclipse 安装目录的 plugins 文件夹中,运行 eclipse -clean
重启 Eclipse 即可(添加插件后只需要运行一次该命令,以后按照正常方式启动就行了)。
所需命令如下:
unzip -qo ~/下载/hadoop2x-eclipse-plugin-master.zip -d ~/下载
// 解压到 ~/下载 中
sudo cp ~/下载/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/
//复制到 eclipse 安装目录的 plugins 目录下
/usr/lib/eclipse/eclipse -clean
//添加插件后需要用这种方式使插件生效
配置 Hadoop-Eclipse-Plugin
在继续配置前请确保已经开启了 Hadoop。
启动 Eclipse 后就可以在左侧的Project Explorer中看到 DFS Locations(若看到的是 welcome 界面,点击左上角的 x 关闭就可以看