2018-03-14
Hadoop nn 主备切换导致HBase集群挂掉问题
# 建立hdfs-site.xml文件的符号链接 ln -s /app/hadoop/etc/hadoop/hdfs-site.xml /app/hbase/conf # 修改hbase-site.xml文件的参数配置 将 <!--region服务器的共享目录,用来持久存储HBase的数据 --> <property> <name>hbase.rootdir</name> <value>hdfs://namenode01:9000/hbase</value> </property> 改成 <!--region服务器的共享目录,用来持久存储HBase的数据 --> <property> <name>hbase.rootdir</name> <value>hdfs://cluster1/hbase</value> </property>
HBase rs自动下线问题
rs挂之前有过长时间的gc,导致长时间未与ZooKeeper通信,从而被zookeeper认为已经离线,触发了org.apache.hadoop.hbase.YouAreDeadException异常,造成了region server下线。从我们的hbase日志分析,rs 挂之前有84秒的gc时间,这84秒 rs没响应了。
优化办法:
# 修改hbase-env.sh文件的参数配置 export HBASE_HEAPSIZE=16G export HBASE_REGIONSERVER_OPTS="-Xmx16g -Xms16g -Xmn128m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$HBASE_LOG_DIR/gc-$(hostname)-hbase.log"
【参考资料】
1.Hadoop NameNode HA 切换引起的Hbase错误,以及Hbase如何基于NameNode的HA进行配置