Hadoop集群伪分布式搭建

一、 环境准备
1、安装虚拟机VirtualBox-5.0.20-106931-Win
2、在机子上安装Linux操作系统 Ubuntu 12.04
在Windows中使用VirtualBox安装Ubuntu(步骤详见下文)
http://dblab.xmu.edu.cn/blog/337-2/#more-337
注意:
(因为Hadoop平台中的所有用户必须是一样的,所以如果使用Windows平台下的Eclipse连接Hadoop,这时Windows的用户名与Ubuntu的用户名要一样,或者要配置操作系统变量)
3、在Ubuntu上安装JDK和Hadoop
下载相关软件包,把所有软件包都下载到/opt目录下(进入/opt目录,然后在当前目录下下载)
(1)下载JDK

$ sudo wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2F www.oracle.com%2F; oraclelicense=accept-securebackup-cookie" 
"http://download.oracle.com/otn-pub/java/jdk/7u55-b13/jdk-7u55-linux-i586.tar.gz"

(2)下载hadoop

$ sudo wget –c http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz

(3)解压安装文件
如:在/opt目录下解压:

# tar xvf jdk-7u55-linux-i586.tar.gz
# tar xvf hadoop-1.2.1.tar.gz

二、 配置集群
1、修改主机名(Linux 相关配置文件放在文件夹/etc下)

$ sudo vi  /etc/hostname ubuntu

配置完后重启下计算机

# reboot

2、修改hosts文件(*)(添加删除数据节点时应配置)
首先用ifconfig命令查一下虚拟机的IP地址,然后修改hosts文件,如:

#vi  /etc/hosts
192.168.56.101  ubuntu

3、修改环境变量

# vi  /etc/profile
#添加以下内容:
export JAVA_HOME=/opt/jdk1.7.0_55
export HADOOP_HOME=/opt/hadoop-1.2.1
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

重载环境变量(关键)

# source /etc/profile

三、配置Hadoop
1. 将路径切换到conf目录下

# cd /opt/hadoop-1.2.1/conf
  1. 修改hadoop-env.sh
# vi hadoop-env.sh

将注释的JAVA_HOME配置改为

export JAVA_HOME=/opt/jdk1.7.0_55
  1. 修改sudo vi core-site.xml
<configuration>
<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.56.101:9000</value>
</property>
#/hadooptmp目录要手工新建,
#如果没有,系统会自动创建/tmp/hadoop-hadoop/
<property>
  <name>hadoop.tmp.dir</name>
  <value>/hadooptmp</value>
</property>
</configuration>
  1. 修改hdfs-site.xml


    dfs.name.dir
    /hadooptmp/dfs/name


    dfs.data.dir
    /hadooptmp/dfs/data


    dfs.replication
    1


dfs.permissions
false


5. 修改mapred-site.xml

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>http://192.168.56.101:9001</value>
</property>
</configuration>
  1. 修改masters
# vi masters

添加以下内容:
ubuntu
7. 修改slaves

# vi slaves
#添加以下内容:
ubuntu

四、建立SSH互信
SSH互信是指在不提示输入用户名和密码的情况下通过SSH访问其他主机;在Hadoop中,master会经常访问其他主机运行程序,所以需要配置SSH互信。以下操作均在master上完成。
1) ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server, 判断是否安装ssh服务,可以通过如下命令进行ssh ubuntu
如果出现:“ssh: connect to host localhost port 22: Connection refused”则说明SSH还没有安装,可用下列命令安装

#apt-get install ssh

2) 进入目录cd ~/.ssh/
3) 生成密钥,配置ssh无密码登录

ssh-keygen -t rsa –P ‘’

4) 加入授权

cat  ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys  

5) 验证配置

# ssh ubuntu

登录成功则配置成功。需要注意的是,由于是登录本机,无法从提示符的主机名中判断是否切换主机,需要通过当前路径等方式判断。
五、启动集群
1、 格式化namenode(只能格式化一次*)

# hadoop namenode -format

2、 启动hadoop

# start-all.sh

3、 查看服务进程

# jps

4、 Namenode管理接口
http:// //192.168.56.101:50070/
列出了集群中的所有datanode以及集群的基本统计。同样可以用于浏览文件系统(点击Namenode首页上的“Browse the file system”链接)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值