Redis OOM问题排查

本文详细描述了Redis出现OOM问题的排查过程,通过分析队列大小、延迟及网络状况,找出问题根源在于网络故障导致消费者处理速度下降。解决措施包括临时调整代码以控制队列大小,并等待网络问题修复,恢复正常服务。
摘要由CSDN通过智能技术生成

1. 问题描述

看到Redis报了OOM的错误,而且服务响应速度非常慢,页面上丢了很多数据,赶紧起来查看问题。

2. 问题排查

我们的系统架构是双边双活的,两个DC(Primary和GSB)都会有数据写进来,通过API把数据存到数据库(双边数据库有复制),同时写到Redis队列一份(这里把Redis当成MQ来用),然后有个Job从redis队列里面把数据取出来,写到两边,流式地处理数据。对于Redis队列来说,API是生产者,Job是消费者。这次只是GSB这边的Redis出了问题,导致了单边不可用。

架构简图

2.1 问题定位

一般Redis里的元数据大小是比较稳定的,出现OOM应该先看队列的大小。果然这个数据队列的size已经远远超过了阈值。我们先把队列清空了,然后把数据读取从Redis切换到了DB,GSB侧终于能正常工作了。

2.2 进一步跟踪

现在我们的数据量一般是每秒钟三四百条左右,按理来说Job的消费速度肯定是能跟上的。但是看问题侧(GSB侧)队列大小大致呈每秒钟一百条的速度在递增。看了一下GSB侧Job的log,发现消费速度很不稳定,最慢的时候一秒钟只能处理三四十条。按照Redis官方百万级的QPS,这简直可以用龟速来形容了。接下来我们来看具体慢在哪里。可以用

redis-cli --latency -h `host` -p `port&

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值