1.下载需要的工具包
jdk-7u5-linux-i586.gz,apache-maven-3.0.5-bin.tar.gz,cmake-2.8.12.1.tar.gz
,hadoop-2.4.0.tar.gz,protobuf-2.5.0.tar.gz,zlib127.zip(如果机器已经安装了zlib或gzip即可不用安装)
2.安装工具
(1)安装JDK
进入jdk的tar包目录:cd /usr/home/twolf/D/vmsoft
解压tar包到指定目录:tar zxvf jdk-7u5-linux-i586.gz -C /usr/lib/jvm
打开环境变量文件: gedit ~/.bashrc
添加如下信息:export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_05
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/bin:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
重新加载环境变量文件:source ~/.bashrc
检查是否安装成功:java -version
(2)安装maven
进入maven的tar包目录:cd /usr/home/twolf/D/vmsoft
解压tar包到指定目录:tar zxvf apache-maven-3.0.5-bin.tar.gz -C /usr/lib
打开环境变量文件: gedit ~/.bashrc
添加如下信息:export M2_HOME=/usr/lib/apache-maven-3.0.5
export M2_HOME
export PATH=${M2_HOME}/bin:$PATH
重新加载环境变量文件:source ~/.bashrc
检查是否安装成功:mvn -version
(3)安装cmake
进入cmake的tar包目录:cd /usr/home/twolf/D/vmsoft
解压tar包到指定目录:tar zxvf cmake-2.8.12.1.tar.gz -C /usr/lib
进入cmake目录:cd /usr/lib/cmake-2.8.12.1
./configure
make
make install
(4)安装protobuf
进入protobuf的tar包目录:cd /usr/home/twolf/D/vmsoft
解压tar包到指定目录:tar zxvf protobuf-2.5.0.tar.gz -C /usr/lib
进入protobuf目录:cd /usr/lib/protobuf-2.5.0
./configure --prefix=/root/protobuf
make
make install
打开环境变量文件: gedit ~/.bashrc
添加如下信息:export PATH=$PATH:/root/protobuf/bin
export PKG_CONFIG_PATH=/root/protobuf/lib/pkgconfig
重新加载环境变量文件:source ~/.bashrc
(6)安装hadoop
进入hadoop的tar包目录:cd /usr/home/twolf/D/vmsoft
解压tar包到指定目录:tar zxvf hadoop-2.4.0.tar.gz -C /usr
打开环境变量文件: gedit ~/.bashrc
添加如下信息:export HADOOP_HOME=/usr/hadoop-2.4.0
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
重新加载环境变量文件:source ~/.bashrc
检查是否安装成功:hadoop version
3.伪集群模式启动
启动前需要做些基本的设置
(1)免登陆模式(前提必须安装ssh,检查是否安装ssh:ssh localhost,如果显示登录时间则表示安装成功,一般已经自带安装好了)
使用ssh公钥实现免密码登陆
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
说明:这个命令会产生一个公钥(~/.ssh/id_dsa.pub)和密钥(~/.ssh/id_dsa)
-t dsa 表示密钥的加密类型,可以为rsa和dsa
-p ''表示不需要密码登陆
-f ~/.ssh/id_dsa表示密钥存放的路径
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
说明:这个命令将本机的公钥添加进authorized_keys中,这样允许本机通过ssh的形式免密码登陆
注意:使用>>,而不是>,因为如果其他主机(如A)也采用免登陆的形式登陆,也可以把主机的公钥添加到authorized_keys文件中。这样主机A就可以免登陆ssh到本机了
(2)设置hadoop的配置参数(etc/hadoop/core-site.xml,etc/hadoop/hdfs-site.xml)
gedit /usr/hadoop/hadoop-2.4.0/etc/hadoop/core-site.xml
在<configuration>标签中添加如下内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
gedit /usr/hadoop/hadoop-2.4.0/etc/hadoop/hdfs-site.xml
在<configuration>标签中添加如下内容:
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.datanode.failed.volumes.tolerated</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/hadoop/hadoop-2.4.0/name1,/usr/hadoop/hadoop-2.4.0/name2</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/hadoop/hadoop-2.4.0/data1,/usr/hadoop/hadoop-2.4.0/data2</value>
</property>
(3)第一次启动文件系统前需格式化系统,即通过hadoop namenode -format或hdfs namenode -format
(4)使用start-dfs.sh来启动hdfs服务
使用jps来看hdfs的进程是否已启动,执行结果如下:
再通过web界面来查看namenode是否正常启动默认地址:http://localhost:50070/
(5)测试hdfs是否可用
hadoop fs -ls /
hadoop fs -mkdir /zxb
hadoop fs -ls /zxb
hdfs dfs -put hadoop/ /zxb/input
hdfs dfs -ls /zxb/input
(6)设置单节点(etc/hadoop/yarn-site.xml)
gedit /usr/hadoop/hadoop-2.4.0/etc/hadoop/yarn-site.xml
在<configuration>节点中添加如下内容:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
(7)测试yarn的启动和停止
sbin/start-yarn.sh
sbin/stop-yarn.sh