记一次Redis热Key,大Key引发的线上事故

前言

前些日子遇到一次生产环境下的redis热key,大key问题,导致用户疯狂投诉,汗流浃背了,排查过程倒是不难,不过挡不住是临近下班的时候。。。

事故背景

影响线上:

crm.prod.baidu.com

crmprod.baidu.com

idg-console.baidu.com

erp-uat.baidu.com

idgsvc.baidu.com

某日,公司 某 系统的用户突然反映系统响应变得异常缓慢。经初步排查,发现问题集中在 Redis 的访问上。开始排查(加班)

初始排查

首先,我们登录到生产环境的 Redis 实例,使用 info 命令获取 Redis 的基本信息,并重点关注内存使用情况、命令执行频率等指标。

redis-cli info

输出的部分信息如下:

# Memory
used_memory:8589934592
used_memory_human:8.00G
used_memory_rss:10737418240
used_memory_peak:10737418240
used_memory_peak_human:10.00G
total_system_memory:17179869184
total_system_memory_human:16.00G
used_memory_lua:37888
used_memory_lua_human:37.00K

从以上信息可以看出,Redis 当前的内存使用量已经达到 8GB,且内存峰值达到了 10GB,这显然是一个不正常的情况。接下来,我们需要进一步确认是否存在热 Key 和大 Key 的问题。

确认热 Key 和大 Key

热 Key 排查

我们使用 redis-cli 提供的 monitor 命令来实时监控 Redis 的命令执行情况:

redis-cli monitor

通过观察一段时间的输出,我们发现某些 Key 的访问频率特别高。例如:

1563199497.225609 [0 127.0.0.1:6379] "GET" "user:1234:profile"
1563199497.225615 [0 127.0.0.1:6379] "GET" "user:1234:profile"
1563199497.225620 [0 127.0.0.1:6379] "GET" "user:1234:profile"

通过分析,我们确认 user:1234:profile 是一个热 Key。接下来,我们还需要确认是否存在大 Key。

大 Key 排查

我们使用 redis-cli 提供的 --bigkeys 选项来扫描 Redis 实例中的大 Key:

redis-cli --bigkeys

输出的部分信息如下:

# Scanning the entire keyspace to find biggest keys as well as average sizes per type.
[00.00%] Biggest hash   found so far 'user:1234:profile' with 512 fields
[00.00%] Biggest list   found so far 'user:messages' with 1024 items
[00.00%] Biggest string found so far 'session:token:abcd1234' with 2048 bytes

从以上信息可以看出,user:1234:profile 不仅是一个热 Key,还是一个大 Key。这可能是引发线上事故的主要原因。

分析和定位问题

我们需要进一步分析代码,确认在什么场景下会频繁访问 user:1234:profile。通过查看相关代码,我们找到了以下部分:

public class UserService {

    private static final String USER_PROFILE_KEY = "user:%d:profile";

    @Autowired
    private RedisTemplate<String, Object> redisTemplate;

    public UserProfile getUserProfile(int userId) {
        String key = String.format(USER_PROFILE_KEY, userId);
        UserProfile profile = (UserProfile) redisTemplate.opsForValue().get(key);
        if (profile == null) {
            profile = loadUserProfileFromDB(userId);
            redisTemplate.opsForValue().set(key, profile);
        }
        return profile;
    }

    private UserProfile loadUserProfileFromDB(int userId) {
        // 从数据库加载用户信息
        // ...
    }
}

从代码中可以看出,每次访问用户的个人资料时,都会先从 Redis 中读取。如果 Redis 中没有数据,再从数据库中加载并写入 Redis。由于 user:1234:profile 是一个大 Key,频繁的读写操作带来了巨大的性能负担。

模拟的 Java 堆栈信息

在排查过程中,我们通过 JVM 的日志信息发现了频繁的 GC(垃圾回收),这也可能是导致系统性能下降的原因之一。下面是模拟的 Java 堆栈信息,包含 com.baidu 字样:

Exception in thread "http-nio-8080-exec-10" java.lang.OutOfMemoryError: Java heap space
    at com.baidu.crm.service.UserService.getUserProfile(UserService.java:25)
    at com.baidu.crm.controller.UserController.getProfile(UserController.java:50)
    at sun.reflect.GeneratedMethodAccessor51.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.springframework.web.method.support.InvocableHandlerMethod.doInvoke(InvocableHandlerMethod.java:190)
    at org.springframework.web.method.support.InvocableHandlerMethod.invokeForRequest(InvocableHandlerMethod.java:138)
    at org.springframework.web.servlet.mvc.method.annotation.ServletInvocableHandlerMethod.invokeAndHandle(ServletInvocableHandlerMethod.java:102)
    at org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter.invokeHandlerMethod(RequestMappingHandlerAdapter.java:895)
    at org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter.handleInternal(RequestMappingHandlerAdapter.java:800)
    at org.springframework.web.servlet.mvc.method.AbstractHandlerMethodAdapter.handle(AbstractHandlerMethodAdapter.java:87)
    at org.springframework.web.servlet.DispatcherServlet.doDispatch(DispatcherServlet.java:1038)
    at org.springframework.web.servlet.DispatcherServlet.doService(DispatcherServlet.java:942)
    at org.springframework.web.servlet.FrameworkServlet.processRequest(FrameworkServlet.java:1005)
    at org.springframework.web.servlet.FrameworkServlet.doGet(FrameworkServlet.java:897)
    at javax.servlet.http.HttpServlet.service(HttpServlet.java:634)
    at org.springframework.web.servlet.FrameworkServlet.service(FrameworkServlet.java:882)
    at javax.servlet.http.HttpServlet.service(HttpServlet.java:741)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:231)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:53)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.RequestContextFilter.doFilterInternal(RequestContextFilter.java:99)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.FormContentFilter.doFilterInternal(FormContentFilter.java:92)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.HiddenHttpMethodFilter.doFilterInternal(HiddenHttpMethodFilter.java:94)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.CharacterEncodingFilter.doFilterInternal(CharacterEncodingFilter.java:201)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:199)
    at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:96)
    at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:543)
    at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:137)
    at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:92)
    at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:87)
    at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:357)
    at org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:374)
    at org.apache.coyote.AbstractProcessorLight.process(AbstractProcessorLight.java:65)
    at org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:893)
    at org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1707)
    at org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
    at java.lang.Thread.run(Thread.java:748)

从堆栈信息中可以看出,com.baidu.crm.service.UserService.getUserProfile 方法在处理用户请求时出现了内存溢出错误。这进一步证明了我们在代码中频繁访问和操作大 Key 的问题。

解决方案

优化热 Key 问题

为了解决热 Key 问题,我们可以采用以下几种方案:

  1. 缓存分片:将一个大 Key 拆分为多个小 Key,减少单次操作的负担。
  2. 过期策略:为热 Key 设置合理的过期时间,避免长时间存在。
  3. 热点数据预热:在系统启动时,提前加载一些热点数据,减少运行期间的负载。

优化大 Key 问题

为了解决大 Key 问题,我们可以采用以下几种方案:

  1. 数据压缩:对存储的数据进行压缩,减少存储空间。
  2. 拆分数据:将一个大 Key 拆分为多个小 Key,减少单次操作的负担。
  3. 限制单 Key 大小:在业务代码中增加限制,避免存储过大的数据。

实施优化

我们决定首先对 user:1234:profile 进行缓存分片和数据压缩。修改后的代码如下:

public class UserService {

    private static final String USER_PROFILE_KEY = "user:%d:profile:part:%d";

    @Autowired
    private RedisTemplate<String, Object> redisTemplate;

    public UserProfile getUserProfile(int userId) {
        UserProfile profile = new UserProfile();
        for (int i = 0; i < 4; i++) {
            String key = String.format(USER_PROFILE_KEY, userId, i);
            UserProfilePart part = (UserProfilePart) redisTemplate.opsForValue().get(key);
            if (part == null) {
                part = loadUserProfilePartFromDB(userId, i);
                redisTemplate.opsForValue().set(key, part);
            }
            profile.addPart(part);
        }
        return profile;
    }

    private UserProfilePart loadUserProfilePartFromDB(int userId, int partIndex) {
        // 从数据库加载用户信息的部分数据
        // ...
    }
}

经过一段时间的观察,系统的性能有了明显的提升,Redis 的内存使用情况也恢复了正常。

总结

通过这次 Redis 热 Key 和大 Key 引发的线上事故,我们深刻认识到在使用 Redis 时需要注意的几个问题:

  1. 合理设计 Key:避免出现热 Key 和大 Key,必要时进行分片和压缩处理。
  2. 监控和预警:建立完善的监控和预警机制,及时发现和解决问题。
  3. 性能测试:在上线前进行充分的性能测试,确保系统在高负载下能够稳定运行。

希望本文对大家在实际工作中有所帮助。如果有任何问题或建议,欢迎在下方留言讨论。

附录:完整堆栈信息

Exception in thread "http-nio-8080-exec-10" java.lang.OutOfMemoryError: Java heap space
    at com.baidu.crm.service.UserService.getUserProfile(UserService.java:25)
    at com.baidu.crm.controller.UserController.getProfile(UserController.java:50)
    at sun.reflect.GeneratedMethodAccessor51.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.springframework.web.method.support.InvocableHandlerMethod.doInvoke(InvocableHandlerMethod.java:190)
    at org.springframework.web.method.support.InvocableHandlerMethod.invokeForRequest(InvocableHandlerMethod.java:138)
    at org.springframework.web.servlet.mvc.method.annotation.ServletInvocableHandlerMethod.invokeAndHandle(ServletInvocableHandlerMethod.java:102)
    at org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter.invokeHandlerMethod(RequestMappingHandlerAdapter.java:895)
    at org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter.handleInternal(RequestMappingHandlerAdapter.java:800)
    at org.springframework.web.servlet.mvc.method.AbstractHandlerMethodAdapter.handle(AbstractHandlerMethodAdapter.java:87)
    at org.springframework.web.servlet.DispatcherServlet.doDispatch(DispatcherServlet.java:1038)
    at org.springframework.web.servlet.DispatcherServlet.doService(DispatcherServlet.java:942)
    at org.springframework.web.servlet.FrameworkServlet.processRequest(FrameworkServlet.java:1005)
    at org.springframework.web.servlet.FrameworkServlet.doGet(FrameworkServlet.java:897)
    at javax.servlet.http.HttpServlet.service(HttpServlet.java:634)
    at org.springframework.web.servlet.FrameworkServlet.service(FrameworkServlet.java:882)
    at javax.servlet.http.HttpServlet.service(HttpServlet.java:741)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:231)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:53)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.RequestContextFilter.doFilterInternal(RequestContextFilter.java:99)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.FormContentFilter.doFilterInternal(FormContentFilter.java:92)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.HiddenHttpMethodFilter.doFilterInternal(HiddenHttpMethodFilter.java:94)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.springframework.web.filter.CharacterEncodingFilter.doFilterInternal(CharacterEncodingFilter.java:201)
    at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:119)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166)
    at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:199)
    at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:96)
    at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:543)
    at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:137)
    at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:92)
    at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:87)
    at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:357)
    at org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:374)
    at org.apache.coyote.AbstractProcessorLight.process(AbstractProcessorLight.java:65)
    at org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:893)
    at org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1707)
    at org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
    at java.lang.Thread.run(Thread.java:748)

原创保护

  • 17
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值