Redis OOM 问题排查

QuZero

已于 2023-02-09 16:43:17 修改

阅读量1k

点赞数

分类专栏：工作总结 java 经验总结文章标签： redis java

于 2023-01-19 17:37:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quwenqian/article/details/128736631

版权

本文详细介绍了Redis OOM问题导致的服务延迟和硬盘使用率报警，分析了主从切换过程中的超时异常、节点选举时间、异常主从配置以及内存和磁盘波动情况。通过故障排查，揭示了Redis集群在处理故障时的行为和影响，提供了问题的解决方案和参考链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

多个服务同时出现latency SEV2问题，这些服务都依赖远程缓存Redis存储的数据，而且Redis硬盘使用率也出现报警，经过排查发现Redis有4台host停止对外服务，另外其中一个node变成1主11从配置，而非默认的1主4从。

客户影响

大概有0.1%的traffic在30min超过latency阈值，会导致上游服务部分请求超时。
一个节点大部分数据丢失，会增加部分访问的latency。

分析&结论

由于Redis的一台host出现问题，被健康检测系统用新的host（M5）替换，其连接到Master（M1）之后，触发M1的BGSAVE，但M5同步数据失败，不过由于配置原因(replica-serve-stale-data 为true)，其仍然可以对外提供服务，不过由于其没有完成数据同步，所以无有效数据可以读取，所以traffic会穿透到Sable，从而导致latency增加。
同时这些traffic会触发大量写M1操作，引发大量AOF操作，导致内存使用增加，之后被OOM killer杀掉，多次反复此过程，从而导致内存波动，但由于硬盘数据未清理，故硬盘使用量持续增加，之后进行RDB操作，导致硬盘使用量快速增加，引发RDB进程反复重试报错，但这段时间由于没有AOF操作，所以内存并无变化，之后硬盘被服务器清理后，AOF开始工作，内存开始急剧降低，内存过低引发master连接超时。
由于cluster-node-timeo

最低0.47元/天解锁文章

博客等级

码龄17年

14
原创

37
点赞

49
收藏

43
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

C-End Service Storage Architecture
CSDN-Ada助手: "恭喜作者发布了关于C-End Service Storage Architecture的新篇博客，阅读了您的文章，收获颇丰。希望您能继续分享您的见解和经验，也期待您能够深入探讨该主题的实际应用案例，以及对未来发展的展望。谦卑地建议，或许可以考虑加入一些图表或案例分析，以便读者更直观地理解您所阐述的概念。期待您的下一篇作品，加油！"
Spring 学习篇1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。