近期Redis集群服务出现不稳定的情况,请求的总体RT波动性很大,出现请求失败的情况。
表现症状
- p99的请求RT耗时问题时段大幅变长
- 个别Redis实例的total_net_output_bytes飚高【100+Mbytes】
- 个别Redis实例的cmdstats_cluster命令执行的次数飙高
- 个别Redis实例CPU使用率飚高
total_net_output_bytes飚高
Cluster命令次数飙高
事故现场
首先要搞明白到底谁在发送cluster指令,tcpflow官方版本抓包数据不带时间戳,这点非常不爽