大数据是时下非常火的名词,而Hadoop作为大数据的一个平台也十分受欢迎,但是目前市面上的书籍针对的版本都比较低,根据用软件的原则,要用就用最新的,所以想学习一下Hadoop-2.2.0,可是只有一些官方文档,还有网上的一些资料,发现并没有很系统的讲解Hadoop学习的,毕竟写博客也是比较辛苦的事情,坚持一两个月还行,真的要一直坚持下去,确实比较困难。
一.Hadoop环境安装配置
本文基于Hadoop2.2.0版本作介绍,目前最新的Hadoop是2.4.0,但是2.2.0是稳定版,初学还是感觉稳定版比较好,等到以后熟练了,在学习更高版本的特性。
1.1 安装Ubuntu
Hadoop最好的运行环境当然是Linux下,Linux的发行版本有很多。他们只是在一些细微的命令上会有差异,大部分的操作还是相通的。本文选择使用Ubuntu的系统,相应的Debian类的Linux版本的配置方式都是相同的。基于RPM的Linux版本在一些命令上可能略有不同。
首先是安装Vmware,从网上下载Vmvare,一直点击“下一步”就可以完成安装了,这个过程相对比较简单。
然后是安装Ubuntu,可以从Ubuntu的官网下载,我这里的版本是ubuntu-14.04-desktop-i386,请记住这里的版本,如果是32位的话,最好以后的JDK,eclipse等都选用32位的版本,以免产生问题。虚拟机安装Ubunut的过程也比较简单,网上的教程也有很多,这里就不赘述了。
1.2 安装JDK
安装JDK(JavaDevelopment Kit)是Hadoop环境搭建重要的部分,JDK的安装本身不复杂,复杂的是环境变量的配置。本文选择是jdk1.8.0_05的32位版本,这个版本是从Oracle的官网下载的,大家可以根据自己的需求选择不同的版本,但是最好在JDK1.6以上。
1) 下载JDK1.8,这里存放的路径是/home/XXX/Downloads/jdk-8u05-linux-i586.tar.gz。
2) 将文件解压缩到任意目录下,本文解压到/opt/tools,命令如下。
sudo tar xvfjdk-8u05-linux-i586.tar.gz –C /opt/tools
其中-C为将文件解压的目录位置,可以对此处做修改。
3) 配置JDK的环境命令如下。
sudo gedit /etc/profile
打开porfile文件之后,在文件最后加上以下命令:
exportJAVA_HOME=/opt/tools/jdk1.8.0_05
exportPATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
4) 在执行下面的命令是文件生效。
source /etc/profile
5) 使用以下命令查看JDK是否安装成功。