HBase稳定性建设

最新推荐文章于 2021-01-01 22:02:01 发布

年更yao

最新推荐文章于 2021-01-01 22:02:01 发布

阅读量553

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gloria_y/article/details/88688401

版权

本文总结了过去一段时间我们对HBase稳定性的建设工作，想要对服务进行全方位的了解，保证稳定性，对服务性能进行优化，势必要对服务中每个环节都了如指掌。并且当请求量大影响服务稳定的时候，对请求量能够进行控制。同时，稳定性建设的成果，如监控可视化、集群性能数据分析等，也大大提升了我们对业务优化，协助业务降低成本，提升服务使用率提供了极大的帮助。

HBase服务涉及到很多组件:HMaster、RegionServer、ThriftServer。使用Phoenix的话，还涉及到QueryServer。以及ThrfitServer和QueryServer上层的HAproxy。

下面将逐一阐述。

这里给出一个简单的HBase相关组件的说明图

1.HBase Audit Log（审计日志）

统计内容：

HBase原生Audit log记录了一些简单的Rpc信息，例如，客户端的版本，ip等基本信息

改进：

通过解析Rpc的信息，获取请求类型，大小，请求表信息，region信息等

解决问题：

以前用户反馈请求慢，经常找不到哪些表导致服务压力大，而后我们通过增加审计日志中的信息，

可以通过审计日志轻松了解到具体什么表，region，什么类型的操作导致

2.监控

HBase原生有很多监控项，但是页面上只有基本的每秒请求次数这样的信息，这种粒度和维度的统计对于我们来说比较粗犷。

其他监控信息需要通过jmx，sinker等方式获取。目前我们已经可以统计到region级别的请求量，P99等监控数据。

有了丰富的监控数据，我们可以对性能数据进行分析，及时找到需要资源紧张的业务，找到资源利用率低的业务，为业务优化提供数据支撑。

源码改造：

解决HBase metric信息统计导致死锁的问题，将社区patch合入滴滴内部HBase
- HBASE-14166 https://issues.apache.org/jira/browse/HBASE-14166
解决了Scan语义的问题，将社区patch合入滴滴内部HBase
- HBASE-15376 https://issues.apache.org/jira/browse/HBASE-15376

思考：

目前社区的metric语义根据版本升级在不断变化和新增的

其实HBase中有一些我们需要的统计维度还待开发，也是我们深入了解HBase的抓手之一

3.ThriftServer metric & audit log

例如，Python请求HBase表的请求链路如下

用户通过thrift api访问HAproxy将请求分发到具体的ThriftServer实例，

ThriftServer将请求的TPut、TScan等操作转为HBase的java api，进行HBase集群的实际访问

我们采集了ThriftServer的请求次数，请求P99等信息

改进：

之前经常遇到ThriftServer线程池满的情况

因此，我们调整了线程池大小，ThriftServer的JVM参数

随着HBase用户越来越多，使用一段时间之后，最近我们发现一些ThriftServer gc的问题，正在通过探针程序，和调整参数解决

新增特性：

在ThriftServer源码中，增加了线程池的统计信息

4.QueryServer metric

QueryServer的角色和ThriftServer类似，不同之处在于QueryServer是用来处理Phoenix表的请求的

改进：

增加请求量、请求p99的metric

后期计划：

增加类似audit log的统计功能

5.HAproxy session优化

HAproxy是一个做负载均衡的工具，当我们有多个ThriftServer、QueryServer实例的时候，多个实例上面需要假设HAproxy来处理用户的请求

将服务尽量均衡分布到后面的实例上。之前的情况是因为有些请求要请求两次，比如thriftServer的长scan操作，需要先获取scanid，然后再通过scanid获取数据

为了将一个请求每次的交互信息都打到同一个实例上，我们将HAproxy的映射策略，设置为按用户端ip映射到具体实例。

因此存在一个问题就是当用户只有一个ip有很大请求量，请求ThriftServer的时候，这个ip发出的请求量都落到同一个ThriftServer实例上面了。

改进：

将ThriftServer请求按session进行分配，这样一个客户端ip请求过来的时候，同一个ip不同session的请求会打到不同的实例上，分散请求压力。

后期计划：

将QueryServer请求也按session分配进行测试并上线，解决QueryServer请求热点的问题

6.Quota建设

首先，任何DB都是在有限资源上构建起来的。不能无尽的使用，前面内容阐述了各种对请求量统计的metric，

但是当请求量大的时候，没有有效的控制手段，统计再多信息也是没用的。需要有有效的手段对异常请求进行限制。

集群资源有限的情况下，如何保证业务之间的影响降为最小？如何保证服务不会被大的请求压垮？

Quota功能就是通过设置用户、表、NameSpace等维度每秒请求次数，请求大小，来对请求量进行限制的。

因此，我们将社区的Quota功能合并进了DIDI内部版HBase。

社区patch

https://issues.apache.org/jira/browse/HBASE-11598

在此patch基础上，我们进行了如下改进

按类型取消quota的限制
并修复Cell 为null的bug

并且，通过对社区版Quota功能的深度使用，我们发现Quota功能还有更多可以改进的地方

后续我们将增加更多Quota语义、类别处理的支持

7.探索OpenTSDB的优化空间

OpenTSDB是我们目前监控数据的存储引擎，可以通过http写入，与Grafana轻松对接实现可视化。

因此我们很关注OpenTSDB的写入和查询效率。

改进：

关闭了对TSDB的元数据的频繁更新，当元数据有变动时手动更新，使得OpenTSDB元数据表每秒十几万次请求降为每秒几次请求。

调整了OpenTSDB的compact参数，避免compact短时间将RegionServer压力拉至很高。

后期优化：

openTSDB compaction 通过HBase的compaction来做，而不是通过读出数据，再重新put数据，delete数据解决

openTSDB rowkey设计优化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase稳定性建设

本文总结了过去一段时间我们对HBase稳定性的建设工作，想要对服务进行全方位的了解，保证稳定性，对服务性能进行优化，势必要对服务中每个环节都了如指掌。并且当请求量大影响服务稳定的时候，对请求量能够进行控制。同时，稳定性建设的成果，如监控可视化、集群性能数据分析等，也大大提升了我们对业务优化，协助业务降低成本，提升服务使用率提供了极大的帮助。 HBase服务涉及到很...
复制链接

扫一扫

年更yao

CSDN认证博客专家 CSDN认证企业博客

码龄12年

111: 原创

5万+: 周排名

119万+: 总排名

13万+: 访问

: 等级

1961: 积分

128: 粉丝

19: 获赞

16: 评论

126: 收藏

私信

关注

热门文章

分类专栏

工作感悟 8篇
rust 1篇
KV存储/缓存 1篇
Rocksdb 12篇
Redis 1篇
分布式
分布式事务 1篇
OceanBase
Raft 14篇
OLAP
BRaft
linux内核 4篇
SPDK 4篇
大数据架构
HBase基础 43篇
hadoop 4篇
开发语言
Rust
java 3篇
硬件 1篇
SSD 1篇

最新评论

HBase 主主replication
FightTiger: 嗯、我看代码、需要用同样的PeerId、有逻辑可以避免数据回环.
HBase 主主replication
年更yao: 我看代码的时候 HBase里面是有做校验避免这个问题的。最新代码没有跟了。可以自己测试+看下代码。
HBase 主主replication
FightTiger: 请教下、这样的的话、一直产生wal日志、不会导致数据在两个集群来回写入吗?
HBase-Compact-PressureAwareCompactionThroughputController分析
士别三日wyx: 学习使我快乐
Rocksdb prefix Bloomfilter
年更yao: https://github.com/vesoft-inc/nebula/pull/2274/files nebula prefix bloom filter

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。