hadoop2.7.3分布式集群搭建

本文介绍搭建hadoop分布式集群环境,机器:master(centos7.2 64 1台),slave1(centos7.2 64 1台)

先在master上面配置。

(1)修改hosts文件

vi /etc/hosts

把host原来的内容改成 (见文章结尾的说明)



vi /etc/sysconfig/network

master写入:

NETWORKING=yes
HOSTNAME= master
NETWORKING_IPV6=yes
IPV6_AUTOCONF=no

slave1写入:

NETWORKING=yes
HOSTNAME= slave1
NETWORKING_IPV6=yes
IPV6_AUTOCONF=no


(2)安装SSH,并让master无密登录服务器和slave1服务器,2台机器的管理员密码最好一样,避免麻烦。

master上:

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  
chmod 0600 ~/.ssh/authorized_keys

slave1上:

scp root@master:~/.ssh/id_dsa.pub ~/.ssh/master_dsa.pub
cat ~/.ssh/master_dsa.pub >> ~/.ssh/authorized_keys

效果就是不会提示输入密码:

master上:



(3)下载hadoop-2.7.3

参考:http://blog.csdn.net/cafebar123/article/details/73500014


(4)配置hadoop-2.7.3,在/usr/hadoop-2.7.3/etc/hadoop 路径下

master上:

core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
      	<value>hdfs://master:9000</value>
    </property>
</configuration>


hdfs-site.xml:

<configuration>
    <property>
      <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
</configuration>

mapred-site.xml:

mv mapred-site.xml.template mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
      <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
    </property>
    <property>                                                              
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

(5) hadoop-env.sh、mapred-env.sh、yarn-env.sh这几个文件中的JAVA_HOME改为已安装的JAVA安装路径,在/usr/hadoop-2.7.3/etc/hadoop路径下。

vi hadoop-env.sh

export JAVA_HOME=/alidata/server/java-1.7.0


(6)配置环境变量

vi /etc/profile

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3  
export PATH=$PATH:$HADOOP_HOME/bin

(7)配置slave文件,在/usr/hadoop-2.7.3/etc/hadoop路径下。

vi slaves

slave1

(8)把master上配置的hadoop配置拷贝到slave1上面:

例如:scp -r master机上hadoop路径 root@slave1:slave1机上的路径

scp -r /usr/hadoop-2.7.3 root@slave1:/usr

(这一步时间比较长,有1个多小时)


(9)第一次启动,格式化hdfs,在/usr/hadoop-2.7.3路径下:

./bin/hdfs namenode -format



这个格式化的日志也要仔细看一下,如果日志有错误记录,还要检查一下。之前本人有遇到过。


(9)启动。

./sbin/start-all.sh
或者:

./sbin/start-dfs.sh
./sbin/start-yarn.sh


master效果:


slave1效果:


(bootstrap跟这个无关)


在浏览器中输入:http://119.29.174.43:8088    (master机),效果:



如此一来,hadoop分布式集群环境就基本可以了。

容易遇到的问题:

(1)运行 ./sbin/start-all.sh 命令,发现master机启动不起来,查看日志,提示:

Problem binding to [master:9000] java.net.BindException: Cannot assign requested address

原因是无法分派ip。网上查了,说是主机和从机要在一个网段内,比如master机ip是119.29.174.43 ,slave1机应该是119.29.174.××,我这个是租用的服务器,照这样,是不行的。然后我在服务器控制台尝试了下“弹性ip”,发现不适用;最后经一位网友的提示,改成这样:

在/etc/hosts 中,

本机内网IP      本机hostname
其他服务器外网IP   其他服务器hostname
实测可以,暂时没发现问题。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值