Hadoop集群搭建

最新推荐文章于 2024-04-27 23:53:56 发布

一团乱麻

最新推荐文章于 2024-04-27 23:53:56 发布

阅读量384

点赞数 1

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_38296054/article/details/79875763

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop搭建环境：

硬件：

平台：window下 vm14的Linux 内存1G/每台磁盘20G/每台，共6台

软件：

系统采用centOS 7 linux 内核版本Linux version 3.10.0-693.el7.x86_64

jdk版本jdk-10，hadoop版本2.7.5，zookeeper版本3.4.10 ，psmisc-23.1（由于系统安装的时候是按照最小安装导致没有这个组件，相关功能无法启用）

集群节点分配

Park01：Zookeeper NameNode (active) Resourcemanager (active)

Park02：Zookeeper NameNode (standby)

Park03：Zookeeper ResourceManager (standby)

Park04：DataNode NodeManager JournalNode

Park05：DataNode NodeManager JournalNode

Park06：DataNode NodeManager JournalNode

安装步骤

1.配置文件

0.永久关闭每台机器的防火墙

该方法为centOS7之前：执行：service iptables stop 再次执行：chkconfig iptables off

centOS7之后：

1.为每台机器配置主机名，固定IP地址以及hosts文件

配置网卡=》/etc/sysconfig/network-scripts/ifcfg-eth33（centOS7默认网卡）

示例：

        DEVICE=eth33                设备的名称
        HWADDR=00:0c:29:ac:95:0c    设备的物理地址
        NM_CONTROLLED=no            是否使用NetworkManager进行网络接口的管理，默认yes
        ONBOOT=yes                  在系统或网络服务启动的时候是否开启该网络接口，默认no
        IPADDR=192.168.1.1          定义IP地址
        NETMASK=255.255.255.0      定义子网掩码
        TYPE=Ethernet              网络类型为以太网
        BOOTPROTO=static              IP的获取方式
            none    不使用任何启动协议
            dhcp    使用dhcp协议作为启动协议，通过dhcp服务器获得IP地址
            static  使用静态IP地址
        IPV6INIT=no                是否支持IPv6配置
        USERCTL=no                  是否允许普通用户控制该网络接口
        GATEWAY=192.168.1.254      默认网关的地址(vm中寻找网关地址)
        DNS1=222.222.222.222        指定该主机能够查找的DNS服务器地址
        DNS2=202.99.166.4
        DNS3=202.99.160.68

配置主机名=》执行： vim /etc/sysconfig/network =》然后执行 hostname 主机名=》达到不重启生效目

示例：

# Created by anaconda
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME=hadoop01
GATEWAY=192.168.16.1
~

配置hosts文件=》执行：vim /etc/hosts

示例：

127.0.0.1   localhost
::1         localhost
192.168.234.21 hadoop01
192.168.234.22 hadoop02
192.168.234.23 hadoop03
192.168.234.24 hadoop04
192.168.234.25 hadoop05
192.168.234.26 hadoop06

2.通过远程命令将配置好的hosts文件 scp到其他5台节点上

执行：scp /etc/hosts hadoop02: /etc

3.为每天机器配置ssh免秘钥登录

执行：ssh-keygen

ssh-copy-id root@hadoop01 （分别发送到6台节点上）

4.前三台机器安装和配置zookeeper

配置conf目录下的zoo.cfg以及创建myid文件

zoo.cfg:

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/home/software/zookeeper-3.4.10/tmp
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=192.168.16.129:2888:3888
server.2=192.168.16.130:2888:3888
server.3=192.168.16.131:2888:3888

myid:

创建在zookeeper-3.4.10/tmp 下并为每台zookeeper配置1，2，3....id

5.为每台机器安装jdk和配置jdk环境

尽量采用解压配置环境变量的方法安装jdk，

6.安装psmisc(经过上面配置后虚拟机可以连外网了,这个软件耽误了我很长时间，没有安装会导致namenode热备切换无法实现)

yum install psmisc

7.安装和配置01节点的hadoop

配置hadoop-env.sh（地址hadoop-2.7.5/etc/hadoop/hadoop-env.sh ）主要修改JAVA_HOME和HADOOP_CONF_DIR

export JAVA_HOME=/home/software/jdk-10
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.5/etc/hadoop

8.配置core-site.xml

<configuration>
<!--用来指定hdfs的老大，ns为固定属性名，表示两个namenode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns</value>
</property>
<!--用来指定hadoop运行时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
<!--执行zookeeper地址-->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
</configuration>

9.配置01节点的hdfs-site.xml

<configuration>
<!--执行hdfs的nameservice为ns,和core-site.xml保持一致-->
<property>
<name>dfs.nameservices</name>
<value>ns</value>
</property>
<!--ns下有两个namenode,分别是nn1,nn2-->
<property>
<name>dfs.ha.namenodes.ns</name>
<value>nn1,nn2</value>
</property>
<!--nn1的RPC通信地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn1</name>
<value>hadoop01:9000</value>
</property>
<!--nn1的http通信地址-->
<property>
<name>dfs.namenode.http-address.ns.nn1</name>
<value>hadoop01:50070</value>
</property>
<!--nn2的RPC通信地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn2</name>
<value>hadoop02:9000</value>
</property>
<!--nn2的http通信地址-->
<property>
<name>dfs.namenode.http-address.ns.nn2</name>
<value>hadoop02:50070</value>
</property>
<!--指定namenode的元数据在JournalNode上的存放位置,这样，namenode2可以从jn集群里获取
     最新的namenode的信息，达到热备的效果-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop04:8485;hadoop05:8485;hadoop06:8485/ns</value>
</property>
<!--指定JournalNode存放数据的位置-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/software/hadoop-2.7.1/journal</value>
</property>
<!--开启namenode故障时自动切换-->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!--配置切换的实现方式-->
<property>
<name>dfs.client.failover.proxy.provider.ns</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--配置隔离机制,可以配置多种隔离机制以换行区别-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!--配置隔离机制的ssh登录秘钥所在的位置-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
 
<!--配置namenode数据存放的位置,可以不配置，如果不配置，默认用的是
     core-site.xml里配置的hadoop.tmp.dir的路径-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/software/hadoop-2.7.1/tmp/namenode</value>
</property>
<!--配置datanode数据存放的位置,可以不配置，如果不配置，默认用的是
          core-site.xml里配置的hadoop.tmp.dir的路径-->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/software/hadoop-2.7.1/tmp/datanode</value>
</property>
 
<!--配置block副本数量-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--设置hdfs的操作权限，false表示任何用户都可以在hdfs上操作文件-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
 
</configuration>

10.配置mapred-site

<configuration>
<property>
<!--指定mapreduce运行在yarn上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

11.配置yarn-site.xml

<configuration>
 <!-- 开启YARN HA --> 
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
 
  <!-- 指定两个resourcemanager的名称 --> 
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
 
<!-- 配置rm1，rm2的主机 --> 
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hadoop01</value>
</property>
 
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hadoop03</value>
</property>
 
<!--开启yarn恢复机制-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
 
<!--执行rm恢复机制实现类-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
 
<!-- 配置zookeeper的地址 -->  
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
<description>For multiple zk services, separate them with comma</description>
</property>
 
<!-- 指定YARN HA的名称 -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn-ha</value>
</property>
 
<property>
<!--指定yarn的老大 resoucemanager的地址-->
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<!--NodeManager获取数据的方式-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

12.配置slaves文件

hadoop04
hadoop05
hadoop06

13.配置hadoop的环境变量（可不配）

JAVA_HOME=/home/software/jdk1.8
HADOOP_HOME=/home/software/hadoop-2.7.1
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export JAVA_HOME PATH CLASSPATH HADOOP_HOME