1、环境及工具准备
操作系统:windows10
数据库:Redis
压力测试工具:JMeter(传送门)
2、背景介绍
项目迁移到.net core
并上线以后,运行没多久接口就频繁罢工,容器没有挂,redis、mogodb、sql server
全都正常,容器重启后可以正常一下,但是没过多久就又罢工了,最后只有通过docker logs
命令挨个去寻找容器日志中记录的错误信息,结果发现了StackExchange.Redis.RedisTimeoutException: Timeout performing EVAL
。这里说明下是.net core2.2版本,不知道3.1版本还会不会有这个问题。
3、问题重现
打开JMeter
压力测试工具 ,添加一个http
请求
使用上篇文章发布在docker
的地址和请求参数
设置线程数为500
,循环次数为3
,并运行,从汇总报告中可以看出,错误率高达50%
以上
使用docker logs
查看容器日志,发现了同线上一样的Redis
连接超时错误,且Redis
数据中缓存的数量只有668(理论上应该是500*3=1500)
4、问题分析过程
(1)找到Redis
组件注入的地方
(2)查看AddDistributedRedisCache
源码,发现注入的是一个单例的IDistributedCache
对象:
然后就发现RedisCache
对象是用ConnectionMultiplexer
管理Redis连接的
这里针对ConnectionMultiplexer
对象做了线程安全
(3)进一步查看源码,也没有发现连接池的使用,而且从官网上的介绍来看,ConnectionMultiplexer
中也没有连接池的概念,RedisCache
对象中用于访问Redis
数据库的私有属性_cache
,并不是从连接池中获取对象,这样一来,在并发量较大的时候,会出现连接等待时间过长从而导致超时的问题,所以网上查看的类似将最小线程数设置大一些的解决方案并不可行;至于将TimeOut
设置大一些,不仅不解决根本问题,还有悖于使用Redis
的初衷。
5、解决方案
从第4步的分析来看,Microsoft.Extensions.Caching.Redis
本身就不适合用于上篇文章介绍的Session
共享方案,因为官网给出的注入对象,没有用连接池管理ConnectionMultiplexer
,而ConnectionMultiplexer
本身也没有池的概念。这里出两种解决方案:
(1)使用Sql Server替代Redis
保存Session
,这是我的一位同事找到的解决方案,并成功线上救火,这种方案代码实现简单,其它地方不需要改变。
(2)使用CSRedis组件,替代Microsoft.Extensions.Caching.Redis
,具体实现方式如下:
安装nuget
包
对照AddDistributedRedisCache
,自定义AddDistributedCsRedisCache
静态方法
public static class CsRedisTest
{
public static IServiceCollection AddDistributedCsRedisCache(this IServiceCollection services, CSRedis.CSRedisClient cSRedisClient)
{
if (services == null)
{
throw new ArgumentNullException("services");
}
if (cSRedisClient == null)
{
throw new ArgumentNullException("cSRedisClient");
}
//if (setupAction == null)
//{
// throw new ArgumentNullException("setupAction");
//}
services.AddOptions();
//services.Configure(setupAction);
services.Add(ServiceDescriptor.Singleton<IDistributedCache, CsRedisCacheTest>(factory => {
return new CsRedisCacheTest(cSRedisClient);
}));
return services;
}
}
对照RedisCache
类,自定义CsRedisCacheTest
类,继承IDistributedCache
接口,这里参考的是https://github.com/2881099/Microsoft.Extensions.Caching.CSRedis
修改Startup.cs
的注册方式如下:
这里的defaultdatabase
貌似只能设置为0
,设置为其它值会报错,这点不如Microsoft.Extensions.Caching.Redis
。
测试结果如下:
- 连接串
poolSize
为50,线程数500,循环次数3,测试通过(即Redis数据库成功缓存1500
条数据,汇总报告中错误率为0
) - 连接串
poolSize
为50,线程数1000,循环次数3,测试不通过,出现超时问题,利用info clients
命令查看Redis客户端连接数为51(50是应用程序的,1是我通过命令连接的)
连接串poolSize
为100,线程数1000,循环数次数3,客户端连接数27,测试通过
连接串poolSize
为100,线程数3000,循环数次数3,客户端连接数46,测试通过
连接串poolSize
为100,线程数5000,循环数次数3,客户端连接数42,测试通过
连接串poolSize
为100,线程数8000,循环数次数3,客户端连接数101,测试不通过
由此可见,不断调高线程数的情况下,应用程序还是会崩溃,但是poolSize
设为100基本就够用了,假设产品用户量为100万,日活20万,最高同时在线用户3万,单服务入口最高1万访问量,上面压力测试发现是可以应对15000
的同时访问量的。当然poolSize
也可以设置得更高,毕竟Redis
允许的最大客户端连接数是10000
,在没有迹象表明poolSize
设置较大值不会有任何负面作用的情况下,个人觉得不宜盲目调大。另外有兴趣的同学也可以相对的做下预警机制,比如poolSize
设置了100,当Redis客户端连接数达到80
时,向IT人员发送短信预警,届时可以调高poolSize
值,避免系统崩溃。
6、结语
到这篇文章结束,.net core+Redis+Docker+k8s
(或IIS+nginx)实现Session
共享才算真正完结,建议这篇文章跟前两篇文章一起看,Redis
连接超时的坑,算是最大的坑之一,所以前后花了这么多篇幅介绍,如果文章中哪些错误或值得改进的地方,也欢迎大家指出。