错误日志摘要:
2018-03-12 17:05:29,608 ERROR [RS_OPEN_REGION-our_ambari_clustergn-a05044c6-core-1-003:16020-15] handler.OpenRegionHandler: Failed open of region=market:KYLIN_YEDCQ82BF3,16F87C792E626990D57DDABF161A3B4E,1519847061679.736e53b17b220aed9aa9233ddffd952a., starting to roll back the global memstore size.
【背景】老集群和新集群使用的Hbase版本都是1.1.2;老集群的hadoop是2.7.1,新集群的hadoop版本是2.7.3
出错之前我做的操作:
从老集群通过copy snapshot把该表的快照迁移到新集群后,在新集群新建一张同样的表,再从此快照恢复这个表。
其他的表都是通过hadoop distcp过来的,迁过来后修复一下元数据、把表数据分配到有关的regionServer就OK了。
其他的表都是通过hadoop distcp过来的,迁过来后修复一下元数据、把表数据分配到有关的regionServer就OK了。
解决办法——
【1】删除新集群上zookeeper上有关该表的节点,【2】清除新集群hdfs上和该表有关的数据,【3】重启新集群上的所有RegionServer
【1】删除新集群上zookeeper上有关该表的节点
[zk: localhost:2181(CONNECTED) 2] ls /hbase/table[ksai:usertb, hbase:meta, ksai:wps_pc_active_user_domain_info, KYLIN_YEDCQ82BF3, hbase:namespace, ksai:weekly-installed-android-apps, ksai:wps_android_active_user_domain_info, ksai:test_zz]
[zk: localhost:2181(CONNECTED) 4] get /hbase/table/KYLIN_YEDCQ82BF3
�master:16000ڐ����APBUF
cZxid = 0x3000b1907
ctime = Fri Mar 16 11:31:41 CST 2018
mZxid = 0x3000b7432
mtime = Fri Mar 16 15:17:38 CST 2018
pZxid = 0x3000b1907
cversion = 0
dataVersion = 12
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 31
numChildren = 0
[zk: localhost:2181(CONNECTED) 5] rmr /hbase/table/KYLIN_YEDCQ82BF3
[zk: localhost:2181(CONNECTED) 6] ls /hbase/table/KYLIN_YEDCQ82BF3
Node does not exist: /hbase/table/KYLIN_YEDCQ82BF3
【2】清除新集群hdfs上和该表有关的数据
[hdfs@our_ambari_clustergn-a05044c6-master-1-001 root]$ hdfs dfs -ls -R /apps/hbase