前言
某汽车总部部署的DMS经销商在线系统,最近一段时间运维人员经常接到反馈,DMS使用出现大量访问慢的情况,针对此情况进行监测分析。
汽车总部已部署NetInside流量分析系统,使用流量分析系统提供实时和历史原始流量,重点针对DMS系统性能进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。
分析对象和目的
此次针对XXX.XXX.XXX.47/49/51,XXX.XXX.XXX.52/55/82 共6个IP地址流量进行监测,重点针对DMS性能和异常进行分析。
通过监测分析,发现DMS存在性能和异常问题,并进一步深入分析出现问题的根因。
分析时间
报告分析时间范围为:2022-11-03 00:00到2022-11-03 16:00。
分析思路和原理
性能监测分析
异常分析
分析结论
- 发现DMS应用的用户体验出现性能情况,主要是服务器响应时间长,服务器500报错,客户端出现400报错。
- 发现部分主机发出大量连接且均失败情况,进一步做异常分析。
详细内容
DMS性能问题分析案例
分析发现系统出现大量慢访问、HTTP 500报错、HTTP 400报错,下图红色三列部分为告警展示图。
下面针对第一个业务系统进行详细的分析。
发现DMS服务器响应时间长
一天中DMS性能情况如下,出现多个访问路径出现100%慢访问情况。
针对第一个慢访问路径进行深入钻取,看到最近一条慢访问页面时间为34.26秒,其中服务器响应时间为34.25秒。
进一步,通过数据包分析验证,看到造成慢访问的原因是服务器响应时间为34.25秒。
同理,其它所有慢访问都可以使用相同的方法分析。
服务器HTTP 500报错
分析发现,服务器一个URL出现HTTP 500报错26次。
通过数据包展示看到服务器返回的500报错。
同理,其它所有报错都可以使用相同的方法分析。
客户端HTTP 400报错
分析发现,客户端在访问系统时出现了大量的HTTP 400报错。
针对第一个访问路径进行深入钻取,找到具体页面出现400报错的详细信息。
DMS异常分析
分析发现部分主机发出大量连接且均失败情况。如下图,左侧列出发生失败请求的主机和对应个数。
以XXX.XXX.XXX.43为例进行分析。
可以看到XXX.XXX.XXX.73访问了XXX.XXX.XXX.43,但均被拒绝访问。
由于异常比较多,再针对XXX.XXX.XXX.11进行分析,下面是这个主机在分析时间内失败数关系图。
进一步分析。
发现访问XXX.XXX.XXX.49的7004端口,均被拒绝。
XXX.XXX.XXX.11访问XXX.XXX.XXX.52的17800端口,均被拒绝。
XXX.XXX.XXX.11访问XXX.XXX.XXX.52的7001端口,均被拒绝。
分析建议
为了更清晰的分析DMS系统,进一步对URL分类定义,明确监测和分析到DMS系统中业务单元的性能和报错情况;
持续监测,发现存在异常连接的问题,进一步分析加强安全防护。