hadoop & hbase 上下线

最新推荐文章于 2022-12-28 21:50:18 发布

weixin_30254435

最新推荐文章于 2022-12-28 21:50:18 发布

阅读量114

点赞数

文章标签：大数据 jira shell

原文链接：http://www.cnblogs.com/jishilei/archive/2013/05/27/3101172.html

版权

线上部署hadoop、hbase 一般都是采用存储、计算一对一的方式，即每个节点启动 hadoop 的 datanode（以下简称dn）& tasktracker（以下简称tt）再加 hbase regionserver（以下简称rs），hadoop namenode（以下简称nn）和 hbase master（以下简称master）一般在负载较轻的情况下可以部署在同一个节点上。

生产集群在长时间运行过程中不可避免存在机器损坏替换的情况，计算资源需求随着业务数据量的增长也会不断提高，这需要我们对集群进行扩容或缩减。

集群改变规模后，最为彻底的刷新方式就是重启整个集群，但重启会导致服务中断，hadoop hbase提供了较好的在线动态调整方式，结合网上的资料整理如下。

hadoop节点增删

dn和tt的增加:

参考：

http://www.cnblogs.com/rilley/archive/2012/02/13/2349858.html

http://rritw.com/a/bianchengyuyan/C__/20120815/205760.html

1、修改nn的配置文件 hadoop/conf/slaves ,添加新节点,并同步配置到所有新节点的机器上.

2、启动dn和tt服务:

       
         hadoop/bin/hadoop-daemon.sh start datanode 
        
         hadoop/bin/hadoop-daemon.sh start tasktracker

该步骤如果可以确定 slaves 中节点都正常，也可以直接在 nn 上运行 hadoop/bin/start-all.sh 来启动.

3、开启balancer (默认10%):

       
         hadoop/bin/start-balancer.sh ?-threshold  
         5

dn和tt的删除:

一般如果需要删除的节点较少，那么可以直接在需要删除的节点上stop所有应用即可。

较为安全的方式推荐使用exclude文件，注意在删除对应节点时，添加到exclude中的hostname或ip必须和report中看到的一致，否则会无法踢出，一般都是ip地址.

一、删除dn:

1、修改nn conf/hdfs-site.xml文件, 指定exclude文件位置：

       
         <property> 
        
         <name>dfs.hosts.exclude< 
         /name 
         > 
        
         <value> 
         /home/admin/hadoop/conf/dfs_excludes 
         < 
         /value 
         > 
        
         < 
         /property 
         >

2、dfs_excludes中添加需要下线的dn，如：

       
         vi /home/admin/hadoop/conf/dfs_excludes 
        
         172.16 
         . 
         1.10 
        
         172.16 
         . 
         1.11 
        
         172.16 
         . 
         1.12

3、在nn上执行下面指令开始迁移数据，完成后这些服务器上的 DataNode 将被停掉：

       
         hadoop/bin/hadoop dfsadmin -refreshNodes

4、通过下面方法检查下线是否完成：

       
         hadoop/bin/hadoop dfsadmin -report 
        
         # 正在执行的会显示：Decommission Status : Decommission  
         in 
         progress 
        
         # 执行完毕后会显示：Decommission Status : Decommissioned 
        
         # 正常服务节点显示：Decommission Status : Normal

也可以通过 web-UI 以下两个状态值来查看剩余需要balance的块数和进度：

       
         Decommissioning Nodes              :  
         0 
        
         Number 
         of Under-Replicated Blocks  :  
         0

二、删除tt：

1、修改 jobtracker（一般和nn部署在一起）的配置文件 hadoop/conf/mapred-site.xml，指定exclude文件位置：

       
         <property> 
        
         <name>mapred.hosts.exclude</name> 
        
         <value>/home/admin/hadoop/conf/tt_excludes</value> 
        
         </property>

2、编辑 tt_excludes中添加需要下线的tt：

       
         /home/admin<span style= 
         "background-color:#ffd700;" 
         >/</span>hadoop/conf/tt_excludes 
        
         hadoop-server- 
         10 
        
         hadoop-server- 
         11 
        
         hadoop-server- 
         12

3、在jobtracker上执行下面命令下线列表里面的JobTracker:

       
         <pre  
         class 
         = 
         "brush:as3;" 
         >hadoop/bin/hadoop mradmin -refreshNodes</pre> 
        
         4 
         、验证结果：

操作后会立即生效，可以到 hadoop 的 web-UI 中查看节点的个数是否已经如期变化.

***** 以上操作完成后，可以清空两个 exclude 文件，并修改 slaves 文件为最新.

HBase 节点增删

基于hadoop hdfs部署后本身的存储容灾完全由hdfs接管，master结合zookeeper（以下简称zk）监控所有的在线rs保证所有的region在线正常服务，rs将region信息都加载到内存中，一旦某个rs异常，master检测到该rs不可用后（该rs原先负责的region会转到zk中的 /hbase/unassigned）会及时重新分配unassigned region，让其他在线rs接管下线的rs服务的region；如果新增一个rs节点，master检测到新节点后，会在较短的时间段内启动 balancer，达到在线rs的region负载均衡（所有region平等，不管真实大小，只按region数量做均衡，更精细化的均衡策略在 0.92版本之后可以自己定制可以参考 http://www.searchtb.com/2012/05/hbase_loadbalance_plugins.html https://issues.apache.org/jira/browse/HBASE-3373）
在增删hbase rs时，最好避开高峰期，并确认如果删掉的rs是服务META 、ROOT表，master log中成功切换至别的rs，如果有异常需要立即处理。

RS 增加：

1、在 HMaster 上(一般和nn部署在同一节点) 的 hbase/conf/regionservers 中增加需要增加的节点.

2、重新启动加载 RegionServer 配置列表（执行前需要确认是否已经有死掉的节点仍在列表之中）：

       
         hbase/bin/start-hbase.sh

3、可以在 hbase 的 web-UI 中查看增加的节点是否生效.

RS 删除：

1、在 HMaster 上(一般和nn部署在同一节点) 执行下面命令下线对应服务器上的 ReginServer:

       
         for 
         HOSTNAME  
         in 
         ` 
         cat 
         exclude_list`; 
         do 
        
         hbase 
         /bin/graceful_stop 
         .sh $HOSTNAME 
        
         sleep 
         5 
        
         done

2、由于下线 RS 时会关闭 hbase 的 LB，所以完成后要手工打开 balance：

       
         # hbase shell 
        
         hbase(main):001:0> balance_switch  
         true

3、可以在 hbase 的 web-UI 中查看删除的节点是已经在 Dead Region Servers 的列表里.

Hadoop & Hbase 单台节点启动和关闭：

 
         # 停止： 
        
         hbase/bin/hbase-daemon.sh stop regionserver 
        
         hadoop/bin/hadoop-daemon.sh stop tasktracker 
        
         hadoop/bin/hadoop-daemon.sh stop datanode 
        
         # 启动： 
        
         hadoop/bin/hadoop-daemon.sh start datanode 
        
         hadoop/bin/hadoop-daemon.sh start tasktracker 
        
         hbase/bin/hbase-daemon.sh start regionserver