今天微信看到一个技术坑分享方式,用来学习,一般只有成功经验分享,技术深坑分享确实很少拿来单独写,我准备尝试写一下。
1.背景知识
nginx负载策略,tomcat session原理,集群session,HTTP协议。
2.问题现象
线上一个独立测评项目,手机上老出现session丢失问题,问题现象浏览器在没有session的情况,第一次访问生成session,通过setcookie http协议写入客户端,用户再次访问一次,http响应突然返回setcookie响应,浏览器的sessionid被重置,以前session保存内容丢失。
3.影响范围
测试环境没有发现,线上问题严重,不过只有android手机(华为手机)有影响,4G网络下问题严重,ios没有太大问题。
4.问题原因
ng负载均衡出现问题,tomcat各个机子没做粘性session。session在多台机子上丢失。
5.问题分析过程
5.1.开发测试都没有发现,上线后客户反馈。
5.2.很久以前做过wap开发,当时也有session丢失问题,当时由于设备太过时了,所以一直怀疑手机浏览器对cookie支持不好,而且网络一直有人说微信浏览器session支持不好,当时过于相信自己经验,而且自己用过手机测试没有问题,测试用的设备,重现问题偶尔有,偶尔没有,所以一直觉得是设备支持cookie问题。
5.3.客户,同事反映强烈,android手机,网络抓包(微信工具,tcpdump),http请求没有问题,响应偶尔出现问题。
5.4.只有这个项目反应强烈,再次怀疑是代码或架构问题,spring security架构问题,把sessionid丢失,研究并粗看了3天spring security源码,没发现太大问题,不敢确认是不是它的问题。
5.5.放弃spring security研读,认为不是短时间能全部确认的。读取写入sessionid采用自己代码实现,做持久化cookie,不再做session级别。不在信赖浏览器session级别。以为问题解决,不过上线后问题依旧。
5.6.放弃以后偏见,从最简单方向考虑,多台机子打印日志,发现日志出现在多个服务器,确认是ng负载均衡出错,以前是ip来源均衡,发现可能公司出口ip是多个,或者ng负载均衡运维本身就调的有问题。开始其实也想到这个问题,不过发现ios手机,还有其他问题没有这个问题,所以该问题被排除了。
6.解决办法
临时处理,停掉一个tomcat,测试反馈问题没有。
7.后续处理措施
粘性session支持。
8.经验教训
有时候经验是优势也是缺点,过于信赖自己,排除一些问题的可能性,形成偏见。有时候解决问题手段 需要归回本质,一项项地排除,不盲目相信自己。
9.RCA类型
配置问题。