遇到和修复的一些HBase的coredump问题

VIP文章「已注销」

于 2022-02-17 15:35:19 发布

阅读量662

点赞数

文章标签： hbase big data 大数据

本文链接：https://blog.csdn.net/ihaxiaolin/article/details/122984600

版权

HBase coredump问题和修复

UI展示RPC call参数时，引用了被释放的内存。
UI造成coredump的原因有两个：
RPC monitor的生命周期没有控制在call的生命周期之内；
RPC monitor返回给http call克隆对象时，状态变量的克隆与数据变量的克隆不匹配。状态变量类似常量拷贝，而数据变量是浅拷贝。
提交到社区的issue：
https://issues.apache.org/jira/browse/HBASE-25981
https://issues.apache.org/jira/browse/HBASE-26087
这个bug的触发与运维脚本频繁抓取JMX的内容有关，特别是抓取RPC的处理状态信息。修复前全部集群特别是访问压力大的集群，会间隔几天因这个问题RS coredump重启。
checkAndMutate在check阶段获取的数据被过早释放。
问题的原因是checkAndMutate在check阶段会scan一部分数据。这部分数据用来做检查。但是scan出数据后，检查之前，scanner就被close，从而数据所在的堆外内存就被释放和复用。
在读数据内容做check的时候，会因为读取数据内存地址的数据不符合预期而产生错误的判断或是coredump，而错误的判断会导致用户本应写入的数据写入失败。
这个问题可以用UT稳定复现。解决方案也比较明确，即数据在使用之后释放。
提到社区的issue：https://issues.apache.org/jira/browse/HBASE-26036
这个bug主要影响的业务，他们存储的数据有正排属性，比

关注