HBase coredump问题和修复
-
UI展示RPC call参数时,引用了被释放的内存。
UI造成coredump的原因有两个:
RPC monitor的生命周期没有控制在call的生命周期之内;
RPC monitor返回给http call克隆对象时,状态变量的克隆与数据变量的克隆不匹配。状态变量类似常量拷贝,而数据变量是浅拷贝。
提交到社区的issue:
https://issues.apache.org/jira/browse/HBASE-25981
https://issues.apache.org/jira/browse/HBASE-26087
这个bug的触发与运维脚本频繁抓取JMX的内容有关,特别是抓取RPC的处理状态信息。修复前全部集群特别是访问压力大的集群,会间隔几天因这个问题RS coredump重启。 -
checkAndMutate在check阶段获取的数据被过早释放。
问题的原因是checkAndMutate在check阶段会scan一部分数据。这部分数据用来做检查。但是scan出数据后,检查之前,scanner就被close,从而数据所在的堆外内存就被释放和复用。
在读数据内容做check的时候,会因为读取数据内存地址的数据不符合预期而产生错误的判断或是coredump,而错误的判断会导致用户本应写入的数据写入失败。
这个问题可以用UT稳定复现。解决方案也比较明确,即数据在使用之后释放。
提到社区的issue:https://issues.apache.org/jira/browse/HBASE-26036
这个bug主要影响的业务,他们存储的数据有正排属性,比