概述
本篇博客主要描述一次线上问题的跟踪定位过程,该问题涉及httpclient、nginx以及后端的tomcat上运行的业务服务器。分别从现象、原因探究、解决方案等各方面试图还原该问题的内在,也希望通过该问题为广大读者提供一个思路,以便在类似问题出现时给读者带来一丝灵感。
背景
其实我们的业务逻辑相对简单,是一个上传加速服务器,架构上也比较简单:客户端 ==> nginx ==> 加速服务器 ==> 后端存储系统。
其中整个系统有一套相对复杂的认证系统,客户端每次上传会带上认证信息,加速服务器如果对其认证失败,会返回403。nginx充当代理,转发http请求。上传使用HTTP-POST方法,会增加一些自定义头部。
现象
QA同学有一组认证信息非法的异常测试用例,连续发送N个异常认证信息的HTTP请求,这些请求的数据量都还不小(300KB左右,注意,这点是关键)。分别观察client、nginx、tomcat上有如下现象:
- client端观察到第一个请求响应符合预期,为403;第二个请求就会失败,nginx返回的错误码为400,而且响应内容与我们协议中描述的不一样;
- nginx上观察到一共收到了两次请求,请求均被转发到了上游服务器(加速服务器),但第二个请求的返回错误码为400