一、 环境准备
1、安装虚拟机VirtualBox-5.0.20-106931-Win
2、在机子上安装Linux操作系统 Ubuntu 12.04
在Windows中使用VirtualBox安装Ubuntu(步骤详见下文)
http://dblab.xmu.edu.cn/blog/337-2/#more-337
注意:
(因为Hadoop平台中的所有用户必须是一样的,所以如果使用Windows平台下的Eclipse连接Hadoop,这时Windows的用户名与Ubuntu的用户名要一样,或者要配置操作系统变量)
3、在Ubuntu上安装JDK和Hadoop
下载相关软件包,把所有软件包都下载到/opt目录下(进入/opt目录,然后在当前目录下下载)
(1)下载JDK
$ sudo wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2F www.oracle.com%2F; oraclelicense=accept-securebackup-cookie"
"http://download.oracle.com/otn-pub/java/jdk/7u55-b13/jdk-7u55-linux-i586.tar.gz"
(2)下载hadoop
$ sudo wget –c http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz
(3)解压安装文件
如:在/opt目录下解压:
# tar xvf jdk-7u55-linux-i586.tar.gz
# tar xvf hadoop-1.2.1.tar.gz
二、 配置集群
1、修改主机名(Linux 相关配置文件放在文件夹/etc下)
$ sudo vi /etc/hostname ubuntu
配置完后重启下计算机
# reboot
2、修改hosts文件(*)(添加删除数据节点时应配置)
首先用ifconfig命令查一下虚拟机的IP地址,然后修改hosts文件,如:
#vi /etc/hosts
192.168.56.101 ubuntu
3、修改环境变量
# vi /etc/profile
#添加以下内容:
export JAVA_HOME=/opt/jdk1.7.0_55
export HADOOP_HOME=/opt/hadoop-1.2.1
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
重载环境变量(关键)
# source /etc/profile
三、配置Hadoop
1. 将路径切换到conf目录下
# cd /opt/hadoop-1.2.1/conf
- 修改hadoop-env.sh
# vi hadoop-env.sh
将注释的JAVA_HOME配置改为
export JAVA_HOME=/opt/jdk1.7.0_55
- 修改sudo vi core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.56.101:9000</value>
</property>
#/hadooptmp目录要手工新建,
#如果没有,系统会自动创建/tmp/hadoop-hadoop/
<property>
<name>hadoop.tmp.dir</name>
<value>/hadooptmp</value>
</property>
</configuration>
修改hdfs-site.xml
dfs.name.dir
/hadooptmp/dfs/name
dfs.data.dir
/hadooptmp/dfs/data
dfs.replication
1
dfs.permissions
false
5. 修改mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://192.168.56.101:9001</value>
</property>
</configuration>
- 修改masters
# vi masters
添加以下内容:
ubuntu
7. 修改slaves
# vi slaves
#添加以下内容:
ubuntu
四、建立SSH互信
SSH互信是指在不提示输入用户名和密码的情况下通过SSH访问其他主机;在Hadoop中,master会经常访问其他主机运行程序,所以需要配置SSH互信。以下操作均在master上完成。
1) ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server, 判断是否安装ssh服务,可以通过如下命令进行ssh ubuntu
如果出现:“ssh: connect to host localhost port 22: Connection refused”则说明SSH还没有安装,可用下列命令安装
#apt-get install ssh
2) 进入目录cd ~/.ssh/
3) 生成密钥,配置ssh无密码登录
ssh-keygen -t rsa –P ‘’
4) 加入授权
cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys
5) 验证配置
# ssh ubuntu
登录成功则配置成功。需要注意的是,由于是登录本机,无法从提示符的主机名中判断是否切换主机,需要通过当前路径等方式判断。
五、启动集群
1、 格式化namenode(只能格式化一次*)
# hadoop namenode -format
2、 启动hadoop
# start-all.sh
3、 查看服务进程
# jps
4、 Namenode管理接口
http:// //192.168.56.101:50070/
列出了集群中的所有datanode以及集群的基本统计。同样可以用于浏览文件系统(点击Namenode首页上的“Browse the file system”链接)。