Hadoop+Hbase高可用集群搭建

最新推荐文章于 2022-07-12 17:41:54 发布

骑码找马

最新推荐文章于 2022-07-12 17:41:54 发布

阅读量224

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_42034217/article/details/103195879

版权

大数据专栏收录该内容

45 篇文章 3 订阅

订阅专栏

Hadoop配置

1、core-site.xml配置：

<configuration>
<!--指定默认hdfs集群服务名是哪个 -->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://ns1</value>
</property>
<!-- 指定hadoop临时目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.7.6/tmp</value>
</property>
 <!-- 指定zookeeper地址 -->
<property>
        <name>ha.zookeeper.quorum</name>
        <value>hadoop02:2181,hadoop03:2181,hadoop04:2181</value>
</property>
<property>
   <name>ipc.client.connect.max.retries</name>
    <value>20</value>
    <description>
      Indicates the number of retries a clientwill make to establisha server connection.
    </description>
  </property> 
<property>
   <name>ipc.client.connect.retry.interval</name>
    <value>5000</value>
    <description>
      Indicates the number of milliseconds aclient will wait for before retrying to establish a server connection.
    </description>
  </property>
<property>
    <name>io.file.buffer.size</name>
    <value>262144</value>
  </property>
</configuration>

2、hdfs-site.xml配置：

<configuration>
<!--指定hdfs的nameservice为ns1，需要和core-site.xml中的保持一致 -->
<property>
        <name>dfs.nameservices</name>
        <value>ns1</value>
</property>
<!-- ns1下面有两个NameNode，分别是nn1，nn2 -->
<property>
        <name>dfs.ha.namenodes.ns1</name>
        <value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
        <name>dfs.namenode.rpc-address.ns1.nn1</name>
        <value>hadoop05:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
        <name>dfs.namenode.http-address.ns1.nn1</name>
        <value>hadoop05:50070</value>
</property>
<!-- nn2的RPC通信地址 -->
        <property>
        <name>dfs.namenode.rpc-address.ns1.nn2</name>
         <value>hadoop06:9000</value>
</property>
<!-- nn2的http通信地址 -->
<property>
         <name>dfs.namenode.http-address.ns1.nn2</name>
         <value>hadoop06:50070</value>
</property>
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
<property>
         <name>dfs.namenode.shared.edits.dir</name>                    
         <value>qjournal://hadoop02:8485;hadoop03:8485;hadoop04:8485/ns1</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
         <name>dfs.journalnode.edits.dir</name>
         <value>/usr/local/hadoop-2.7.6/journaldata</value>
</property>
<property>
         <name>dfs.namenode.name.dir</name>
         <value>/usr/local/hadoop-2.7.6/name</value>
</property>
<property>
         <name>dfs.datanode.data.dir</name>
         <value>/usr/local/hadoop-2.7.6/data</value>
</property>

<!-- 开启NameNode失败自动切换 -->
<property>
         <name>dfs.ha.automatic-failover.enabled</name>
         <value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<property>
         <name>dfs.client.failover.proxy.provider.ns1</name>                    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
<property>
         <name>dfs.ha.fencing.methods</name>
         <value>
                sshfence
                shell(/bin/true)
         </value>
</property>
<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<property>
         <name>dfs.ha.fencing.ssh.private-key-files</name>
         <value>/root/.ssh/id_rsa</value>
</property>
         <!-- 配置sshfence隔离机制超时时间 -->
<property>
         <name>dfs.ha.fencing.ssh.connect-timeout</name>
         <value>30000</value>
</property>
<!-- 增加NameNode和DataNode处理线程数 -->
 <property>
    <name>dfs.namenode.handler.count</name>
    <value>50</value>
  </property>
   <property>
    <name>dfs.datanode.handler.count</name>
    <value>8</value>
  </property>
  <property> 
    <name>dfs.datanode.max.transfer.threads</name> 
    <value>8192</value> 
</property> 
<!-- 开启短路读，DataNode传递文件描述符而不是路径 -->
<property>
      <name>dfs.client.read.shortcircuit</name>     
      <value>true</value>   
</property>
<property>
      <name>dfs.domain.socket.path</name>
      <value>/var/lib/hadoop-hdfs/dn.socket</value>
</property>
</configuration>

3、mapred-site.xml配置：

<configuration>
<!-- 指定mr框架为yarn方式 -->
<property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
</property>
</configuration>

4、yarn-site.xml配置：

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
          <name>yarn.resourcemanager.ha.enabled</name>
          <value>true</value>
</property>
<!-- 指定RM的cluster id -->
<property>
          <name>yarn.resourcemanager.cluster-id</name>
          <value>yrc</value>
</property>
<!-- 指定RM的名字 -->
<property>
          <name>yarn.resourcemanager.ha.rm-ids</name>
          <value>rm1,rm2</value>
</property>
<!-- 分别指定RM的地址 -->
<property>
          <name>yarn.resourcemanager.hostname.rm1</name>
          <value>hadoop05</value>
</property>
<property>
          <name>yarn.resourcemanager.hostname.rm2</name>
          <value>hadoop06</value>
</property>
<!-- 指定zk集群地址 -->
<property>
          <name>yarn.resourcemanager.zk-address</name>
          <value>hadoop02:2181,hadoop03:2181,hadoop04:2181</value>
</property>
<property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
</property>
</configuration>

5、slaves配置

hadoop02
hadoop03
hadoop04

6、建立文件夹

mkdir tmp journaldata name data logs pids

7、拷贝到其他节点上

scp -r hadoop-2.7.6 root@hadoop03:/usr/local/

8、从结点下分别启动各个JournalNode

./hadoop-daemon.sh start journalnode

9、登陆主节点hadoop05，进入到hadoop-2.7.6/bin目录下，格式化文件系统

./hadoop namenode -format

10、启动第2步初始化好的NameNode服务

./hadoop-daemon.sh start namenode

11、在master2 bin中同步master1

hdfs namenode -bootstrapStandby

12、edit日志初始化到JN节点

./hdfs namenode -initializeSharedEdits

13、在master1初始化ZKFC

hdfs zkfc -formatZK

14、启动Hadoop的HA集群

./start-dfs.sh
./start-yarn.sh

Hbase配置

1、hbase-env.sh配置

export JAVA_HOME=/usr/local/jdk1.8.0_191
export HBASE_CLASSPATH=/usr/local/hadoop-2.7.6/etc/Hadoop
export HBASE_PID_DIR=/usr/local/hbase-1.4.4/pids
export HBASE_MANAGES_ZK=false

2、hbase-site.xml配置

<configuration>
        <property>
            <name>hbase.rootdir</name>
            <value>hdfs://ns1/hbase</value>
        </property>
        <property>
            <name>hbase.cluster.distributed</name>
            <value>true</value>
        </property>
        <property>
            <name>hbase.master</name>
            <value>60000</value>
        </property>
        <property>
            <name>hbase.tmp.dir</name>
            <value>/usr/local/hbase-1.4.4/tmp</value>
        </property>
        <property>
            <name>hbase.zookeeper.quorum</name>
            <value>hadoop02,hadoop03,hadoop04</value>
        </property>
        <property>
            <name>hbase.zookeeper.property.dataDir</name>
            <value>/usr/local/hbase-1.4.4/data</value>
        </property>
        <property>
            <name>hbase.zookeeper.property.clientPort</name>
            <value>2181</value>
        </property>
        <property>
            <name>zookeeper.session.timeout</name>
            <value>120000</value>
        </property>
        <property>
            <name>hbase.regionserver.restart.on.zk.expire</name>
            <value>true</value>
        </property>
<!--默认: 10  :RegionServers受理的RPC Server实例数量。对于Master来说，这个属性是Master受理的handler数量.-->
        <property>
            <name>hbase.regionserver.handler.count</name>
            <value>100</value>
        </property>
 <!--默认: 1  :当调用Scanner的next方法，而值又不在缓存里的时候，从服务端一次获取的行数。越大的值意味着Scanner会快一些，
            但是会占用更多的内存。 -->
        <property>
            <name>hbase.client.scanner.caching</name>
            <value>100</value>
        </property>
<!--默认: false  :体验特性：启用memStore分配本地缓冲区。这个特性是为了防止在大量写负载的时候堆的碎片过多。
          这可以减少GC操作的频率。说明：减少因内存碎片导致的Full GC，提高整体性能。-->
       <property>              
<name>hbase.hregion.memstore.mslab.enabled</name>
            <value>true</value>
       </property>
<!--默认: 10  :客户端最多重试次数,可以设为11。 -->
       <property> 
            <name>hbase.client.retries.number</name>  
            <value>11</value> 
       </property> 
<!--默认: false  :建议设为true，关闭消息缓冲。 -->
       <property> 
           <name>hbase.ipc.client.tcpnodelay</name>  
           <value>true</value> 
       </property>  
 <!--默认: 60000  :表示HBase客户端发起一次scan操作的rpc调用至得到响应之间总的超时时间。-->
       <property>
           <name>hbase.client.scanner.timeout.period</name>
           <value>120000</value>
       </property>
 <!--默认: 60000  :该参数表示一次RPC请求的超时时间。如果某次RPC时间超过该值，客户端就会主动关闭socket。 -->
       <property>
          <name>hbase.rpc.timeout</name>
          <value>180000</value>
       </property>
       <property>    
          <name>hbase.hregion.memstore.block.multiplier</name>    
          <value>8</value>    
       </property>
       <property>
          <name>hbase.hstore.blockingStoreFiles</name>
          <value>30</value>
       </property>
       <property>
          <name>hbase.client.write.buffer</name>
          <value>5242880</value>
       </property>
</configuration>

3、conf下新建backup-masters输入hadoop06

vim backup-masters

4、配置regionservers

hadoop02
hadoop03
hadoop04

5、创建目录

mkdir pids tmp

6、解决hbase和hadoop的LSF4J包冲突njnu-bigdata-01 bin]$ ./

mv slf4j-log4j12-1.7.5.jar slf4j-log4j12-1.7.5.jar.bk

7、拷贝hadoop的core-site.xml和hdfs-site.xml拷贝到hbase的conf下

8、拷贝到其他节点上

9、运行

骑码找马

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop+Hbase高可用集群搭建

Hadoop配置1、core-site.xml配置：<configuration><property> <name>fs.defaultFS</name> <value>hdfs://ns1</value></pr...
复制链接

扫一扫

专栏目录