Hadoop 2.0.0-cdh4.5.0安装_hadoop-2.0.0-cdh4.5.0.tar.gz-CSDN博客

Hadoop2.0.0-cdh4.5.0部署文档

1. 环境

Hadoop 2.0.0-cdh4.5.0

java version "1.7.0_45"

Ubuntu 12.04.3 LTS (GNU/Linux3.8.0-29-generic x86_64)

VMware虚拟机3台：

192.168.0.8 master

192.168.0.9 slave1

192.168.0.10 slave2

用户名密码都是root / 123456

2. 步骤

2.1. 配置虚拟机

准备三台虚拟机，操作系统为：

Ubuntu 12.04.3 LTS (GNU/Linux3.8.0-29-generic x86_64)

为三台虚拟机做以下配置（具体步骤自行百度）：

Ø 配置静态IP

Ø 配置/etc/hosts

Ø 配置/etc/hostname

Ø 安装JDK

2.2. 配置集群免登陆

第一步：所有节点分别生成密钥对

所有节点都要做：

命令行中，通过cd命令进入根目录，在根目录执行以下命令生成秘钥：

ssh-keygen -t rsa

密钥成功生成后存储在根目录下的.ssh隐藏目录下，直接用 cd .ssh 就能进入，然后用ls命令就能看到id_rsa id_rsa.pub

第二步：拷贝生成authorized_keys

所有节点都要做：

将id_rsa.pub拷贝到文件anthorized_keys文件中，在 .ssh 文件夹中执行以下命令：

cp id_rsa.pub authorized_keys

第三步：合并所有节点的authorized_keys文件，并分发到所有节点根目录的 .ssh 隐藏文件夹下

slave1中将authorized_keys发送到master的temp1临时文件中:

scp authorized_keys root@master:~/.ssh/temp1

slave2中将authorized_keys发送到master的temp2临时文件中:

scp authorized_keys root@master:~/.ssh/temp2

master中将temp1和temp2附加到authorized_keys文件中，这样的话master的authorized_keys文件就包含了所有节点的公钥:

cat temp1 >> authorized_keys

cat temp2 >> authorized_keys

rm temp1

rm temp2

master中将合并好的authorized_keys文件分发到各节点：

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

第四步：所有系统配置 /etc/ssh/sshd_config 文件，使得系统使用公钥认证，并能识别 authorized_keys

cd /etc/ssh/ 以后，

sudo vi sshd_config

在文件中找到以下几行

RSAAuthentication yes

PubkeyAuthentication yes

#AuthorizedKeysFile%h/.ssh/authorized_keys

把#去掉即可，系统就能通过authorized_keys来识别公钥了

第五步：检查sshd是否运行/安装，如果未安装将不能成功相互连接

运行 ps -e | grep ssh，查看是否有sshd进程

如果没有，说明server没启动，通过 /etc/init.d/ssh -start 启动server进程

如果提示ssh不存在那么就是没安装server

通过 sudo apt-get install openssh-server命令安装即可

第六步：解决 Agentadmitted failure to sign using the key

如果出现该错误，则需要在所有的节点都执行 ssh-add ~/.ssh/id_rsa 将私钥加入ssh。

至此，大功告成，应该就可以在任意一台机器使用 ssh master/slave1/slave2 免密码连入对方了。

2.3. Hadoop下载

官网或者百度搜索下载hadoop-2.0.0-cdh4.5.0.tar.gz

可在windows下载，拷贝到虚拟机。

注意：配置hadoop相关步骤仅在一台机器做即可，配好好后scp拷贝到其它机器。

在压缩包的当前目录下执行以下命令解压：

tar –zxvf hadoop-2.0.0-cdh4.5.0.tar.gz

解压后的文件夹拷贝到/home/fulong/hadoop/下，并改名为cdh，以/home/fulong/hadoop/cdh作为HADOOP_HOME配置环境变量。

2.4. 配置环境变量

使用任意编辑器编辑环境变量/etc/profile，配置好后的环境变量为：

# /etc/profile:system-wide .profile file for the Bourne shell (sh(1))

# and Bournecompatible shells (bash(1), ksh(1), ash(1), ...).

if [ "$PS1"]; then

if [ "$BASH" ] && ["$BASH" != "/bin/sh" ]; then

# The file bash.bashrc already sets thedefault PS1.

# PS1='\h:\w\$ '

if [ -f /etc/bash.bashrc ]; then

. /etc/bash.bashrc

else

if [ "`id -u`" -eq 0 ]; then

PS1='# '

else

PS1='$ '

# The default umaskis now handled by pam_umask.

# See pam_umask(8)and /etc/login.defs.

if [ -d/etc/profile.d ]; then

for i in /etc/profile.d/*.sh; do

if [ -r $i ]; then

. $i

done

unset i

export JAVA_HOME=/usr/lib/jvm7/jdk

export HADOOP_HOME=/home/fulong/hadoop/cdh

exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

exportCLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

注意最后部分的HADOOP_HOME和PATH中与hadoop相关的部分。

配置完后，通过以下命令使得环境变量立即生效：

sudo source /etc/profile

2.5. 修改Hadoop配置文件

Cdh4.5（Hadoop2.0）的配置文件在/cdh/etc/hadoop路径下，和Hadoop1.0的路径不同。

1) hadoop-env.sh

修改hadoop-env.sh配置文件，设置jdk所在的路径，在里面找到JAVA_HOME，并将它的值设置为你电脑jdk所在的绝对路径：

export JAVA_HOME=/usr/lib/jvm7/jdk

2) 修改core-site.xml

添加如下代码：

<name>fs.default.name</name>

<value>hdfs://master:8020</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/fulong/hadoop/tempdata</value>

</property>

3) 修改yarn-site.xml

添加如下代码：

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

注意：yarn.nodemanager.aux-services的值是“mapreduce_shuffle”（在hadoop-2.1-beta中的值是“mapreduce.shuffle”）

4) 修改mapred-site.xml

添加如下代码：

<name>mapreduce.framework.name</name>

</property>

<name>mapred.system.dir</name>

<value>file:/home/fulong/hadoop/mapred_system</value>

</property>

<name>mapred.local.dir</name>

<value>file:/home/fulong/hadoop/mapred_local</value>

</property>

5) 修改hdfs-site.xml

添加如下代码：

<name>dfs.namenode.name.dir</name>

<value>/home/fulong/hadoop/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/fulong/hadoop/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

根据配置内容，需创建几个用于存储数据的目录：

/home/fulong/hadoop/tempdata

/home/fulong/hadoop/mapred_system

/home/fulong/hadoop/mapred_local

/home/fulong/hadoop/name

/home/fulong/hadoop/data

注意：本实验中几个新建的存数据目录在cdh之外，需要分别在各个机器创建。如果将这几个目录建到cdh中，则可直接scp拷贝。

配置好Hadoop的配置文件后，使用如下命令将整个hadoop文件夹分别拷贝到slave1和slave2主机上去：

scp -r /home/fulong/hadoop/cdh root@slave1:/home/fulong/hadoop/

scp -r /home/fulong/hadoop/cdh root@slave1: /home/fulong/hadoop/

2.6. 启动Hadoop

格式化hdfs文件系统：

hdfs namenode -format

启动hdfs：

Start-dfs.sh

启动yarn

Start-yarn.sh

如果成功启动，

则在master机器执行jps命令可以看到如下进程：

12916 NameNode

13280 ResourceManager

13133 SecondaryNameNode

15025 Jps

在所有slave机器执行jps可看到如下进程：

576 Jps

31403 NodeManager

31252 DataNode

如果出现任何问题，进入相应机器/home/fulong/hadoop/cdh/logs目录查看日志。

2.7. 基础监控&运行实例

成功启动后，浏览器访问以下页面可以查看hadoop相关信息：

http://master:50070/dfshealth.jsp

http://master:8088/cluster/nodes

在/cdh/share/hadoop/mapreduce下有hadoop自带的实例程序，可以通过wordcount程序测试hadoop集群是否正常运行。

Wordcount是hadoop-mapreduce-examples-2.0.0-cdh4.5.0.jar中的一个程序，用于统计文本中单词的出现次数。

1.在hdfs根目录下创建存储输入文本的目录

hadoopfs -mkdir /testinput

然后用以下命令可以查看hdfs文件目录，绿色文字是输出：

hadoop fs -ls /

13/12/10 16:42:34WARN util.NativeCodeLoader: Unable to load native-hadoop library for yourplatform... using builtin-java classes where applicable

Found 2 items

drwxr-xr-x - root supergroup 0 2013-12-10 16:42 /testinput

drwx------ - root supergroup 0 2013-12-10 14:28 /tmp

将输入文本上传到hdfs：

hadoop fs -put/home/fulong/hadoop/cdh/etc/hadoop/yarn-site.xml /testinput

执行wordcount程序：

hadoop jarhadoop-mapreduce-examples-2.0.0-cdh4.5.0.jar wordcount /testinput/* /testoutput

执行完后，通过以下命令查看结果：

hadoop fs -cat /testoutput/*