一、缘起
系统使用sharding分库分表共8个分库,其中一个分库因为某种特殊情况响应极慢,导致每个请求都要等待请求超时,针对这个分库的请求夯住、导致Dubbo线程池被占满,最终整个应用不可用。
二、需求分析
一次sharding操作会被路由到不同分库上执行。理论上一个分库挂掉,也只是1/8的请求不可用。
这种库还活着但是响应异常缓慢的特殊状况,会导致整个应用的不可用,对这种情况我们需要及时发现,进行适时的熔断,保护整个应用。
期望
1、单个分库异常快速发现、并失败。
2、单个分库异常不影响其他分库请求处理。
可能导致请求夯住的点:
1、获取数据库连接超时导致请求夯住
2、分库操作响应极其缓慢,所有请求要等待超时才能返回,导致请求夯住
三、方案设计
1、熔断方案
使用阿里 sentinel 针对sharding 操作以分库为单位,在获取链接、sql执行两个点对特定异常(可能导致请求夯住的异常)监控统计,到达某个临界点时进行熔断。
code 示例:
Entry entry =