Hbase集群迁移

最新推荐文章于 2024-06-12 10:51:15 发布

mtj66

最新推荐文章于 2024-06-12 10:51:15 发布

阅读量448

点赞数

分类专栏： hbase 文章标签： hbase 集群迁移

本文链接：https://blog.csdn.net/mtj66/article/details/78639878

版权

hbase 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

也做过集群迁移，一年内迁移了两次快哭了，整体流程和下面大致相同, 但操作也有些不同。采用直接从源集群A distcp到目标集群B，任务在A集群中启动，省去集群C，也不用做什么集群的配置文件制定。但是一般都会跨网段，比如XX云-> YY云，就需要外网的带宽要足够，一般架设的VPN只能达到200MB/s。

但是要考虑的是集群的数据一致性问题：

一种是考虑双写集群，可以做到不停服务。

一种是考虑同步，设置 hbase的 peer 集群地址，停服务，在写入新的地址。

注意跨集群同步时候：因为zookeeper原因, 目标集群hbase 的hostname 避免和源集群hbase hostname一致。

http://blog.csdn.net/liaynling/article/details/54667936

Hbase集群迁移

源集群A
目标集群B
启动迁移任务的集群C，如果A或B集群的磁盘够大，也可以选择其中任意一个集群，用来启动迁移任务。
数据流向：A->C->B
分别消耗A集群的出口流量，C集群的出入流量，B集群的入口流量。由于pipeline的写入模式，流量还会在B集群内部再放大。

一、准备源集群A和目标集群B

由于网络的特殊性，需要在源集群A准备配置文件~/hadoop/etc/hadoop/iptable，内容如下

10.xxx.xxx.xxx 11.xxx.xxx.xxx

xxx用真实的IP地址替换，每个IP地址一行，集群有多少台机器，就有多少行，表示将10的IP转换为11的IP。

搭建目标集群B

二、在执行迁移任务的集群C开启yarn

distcp如果使用分布式模式，依赖于yarn，需要在C集群配置和启动yarn。

从下载hadoop-2.7版配置到yarn集群的各个节点(主要是yarn-site.xml, yarn-env.sh, mapred-site.xml三个文件)，并把yarn-site.xml中的rm.host替换为ResourceManager地址
在hmaster节点启动ResourceManager

#yarn-daemon.sh start resourcemanager

在regionserver节点启动NodeManager

#sbin/yarn-daemons.sh --hosts <yarn机器列表> start nodemanager

三、通知业务执行双写

四、在集群C上准备配置文件distcp.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.nameservices</name>

<value>$hdfscluster-A,$hdfscluster-B,$hdfscluster-C</value>

</property>

<name>dfs.ha.namenodes.$hdfscluster-A</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-A.nn1</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-A.nn2</name>

</property>

<name>dfs.ha.namenodes.$hdfscluster-B</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-B.nn1</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-B.nn2</name>

</property>

<name>dfs.ha.namenodes.$hdfscluster-C</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-C.nn1</name>

</property>

<name>dfs.namenode.rpc-address.$hdfscluster-C.nn2</name>

</property>

<name>dfs.client.failover.proxy.provider.$hdfscluster-A</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.client.failover.proxy.provider.$hdfscluster-B</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.client.failover.proxy.provider.$hdfscluster-C</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>fs.trash.interval</name>

</property>

</configuration>

五、在源集群A上关闭和恢复compaction和split

进入regionserver的web页面，进入conf，拿到regionserver当前的3个配置的值：

hbase.store.stripe.compaction.minFilesL0，默认值是4

hbase.store.stripe.compaction.minFiles，默认值是3

hbase.hstore.compaction.min，默认值是3

记录这些值，用于迁移完成后的恢复.如果没有找到，就用上面给的默认值

在hbase shell中给表设置属性，来禁用compaction。将$table替换成实际的表名; 将split policy设置为DisabledRegionSplitPolicy来禁用表级别的split。为所有表执行以下步骤：

alter '$table', CONFIGURATION => {'hbase.hstore.compaction.min' => '9999', 'hbase.store.stripe.compaction.minFilesL0' => '9999', 'hbase.store.stripe.compaction.minFiles' => '9999'},METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy'}

六、检查是否还有正在跑的compaction、split

在所有机器上执行jstack，搜索compaction和split，如果都是waitting状态，可以认为都ok了。

七、集群复制distcp

1. 在目标集群B上创建同步路径

#hadoop dfs -mkdir /idc_move

2. 在集群C执行复制命令distcp

#nohup hadoop distcp -conf ./distcp.xml -m 50 -bandwidth 2 -p hdfs://$hdfscluster-A/hbase/data/default/$tablename hdfs://$hdfscluster-B/idc_move/$tablename 2>&1 > distcp.log

3. 到yarn页面检查作业进度
http://$resourcemanagerhost:8088/cluster/apps

本地模式

如果数据量不大，可以用本地模式拷贝单线程拷贝数据，命令如下:

hadoop distcp -conf <address.xml> -bandwidth <bandwith_mb> -p <src> <dest>

分布式模式

分布式模式依赖于yarn，需要在第二步启动迁移任务的集群C配置和启动yarn。

#hadoop distcp -conf <address.xml> -m <max_concurrent> -bandwidth <bandwith_mb> -p <src> <dest>

参数解释:

address.xml 存放有源集群与目标集群nn信息的配置文件
max_concurrent 最大拷贝并发数
bandwith_mb 线程拷贝带宽限制，单位MB/s。bandwith_mb * max_concurrent就是整个集群的拷贝带宽，如果是本地模式，只能单线程拷贝，-m参数无效，这个参数就是全局的拷贝数据
src 源数据地址 hdfs://src-hdfs-name/src-path
dest 目标数据地址 hdfs://src-hdfs-name/dest-path
-p选项保留源文件的block大小、存储类型信息(ONE_SSD、ALL_SSD、etc..)

八、在源集群A恢复compaction和split

distcp完成后，恢复compaction和split，进入hbase shell，为所有表执行：

alter '$table', CONFIGURATION => {'hbase.hstore.compaction.min' => 'x', 'hbase.store.stripe.compaction.minFilesL0' => 'y', 'hbase.store.stripe.compaction.minFiles' => 'z'},METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicy'}

其中，x、y、z是这3个参数的原始值，在步骤1中得到的。

九、在目标集群B Move所有列簇

在复制好数据的目标集群B，将hdfs的路径/$TO_LOAD_PATH/$table/region/cf*/data改成/$TO_LOAD_PATH/to_load_$table/cf*/data

#hadoop fs -mkdir -p $TO_LOAD_PATH/toload_$move_table_name/$split_table_cf

#hadoop fs -mv $TO_LOAD_PATH/$move_table_name/*/$split_table_cf/* $TO_LOAD_PATH/toload_$move_table_name/$split_table_cf/

十、在目标集群B Load数据到Hbase