内网集群无法通信_记一次集群内无可用http服务问题排查

最新推荐文章于 2024-08-24 12:44:21 发布

weixin_39638603

最新推荐文章于 2024-08-24 12:44:21 发布

阅读量266

点赞数

文章标签：内网集群无法通信

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39638603/article/details/113693484

版权

本文记录了一次服务偶发不可用的排查过程。问题表现为每天某一时刻接口调不通，经过分析，发现是Nginx对后端Tomcat的探测请求在特定时间点丢失，引发5xx错误。通过日志、网络监控和抓包分析，排除了网络问题，最终定位到可能的代码或系统配置问题。排查过程中涉及了LVS-NGINX-TOMCAT架构、HTTP状态码、网络探测机制等关键点。

摘要由CSDN通过智能技术生成

记一次集群内无可用http服务问题排查

1.摘要

前一阵子发现服务会有偶发的服务不可用的情况，记录一下这个问题的排查过程。

现象是这样的：每天到了某个时间点，就会出现服务不稳定的情况，偶发接口调不通。

线上业务使用了lvs-nginx-tomcat三层结构，首先查看tomcat监控，没有什么特别异常的情况，响应时间和错误码没发现有什么异常，CPU、IO等等指标也都正常。

再查看nginx上的监控，发现在某个时刻这个服务的5xx报错突增，大概7、8秒之后又恢复了。

继续在nginx服务器上找线索，发现Nginx在那个时间点会出现报错：

1

2

2015/12/24 10:30:38 [error] 13433#0: check time out with peer: 10.79.40.1xx:80

线上nginx会每秒探测后端所有服务器的某个uri，如果返回的http状态码是200则认为正常，连续3次探测失败则摘除探测失败的服务器，直到探测成功再恢复。

从日志中可以发现nginx在出问题的时间点对于后端所有tomcat的探测请求都出现了问题，导致摘除了所有后端服务器，在这段时间里请求会报502异常。

从nginx上的日志可以看到探测请求没有返回，那么请求实际发到tomcat了没有？线上业务中的探测频率是1s/次，于是到tomcat的访问日志里查找线索，过滤一个nginx对tomcat的所有探测请求：

可用看出从7:00:10-7:00:40左右的探测请求是有丢失的。

前端机的负载并不高，于是我们第一时间认为这可能是nginx到tomcat服务器的网络有问题。统计了一下线上日志，出问题的机器集中在某个网段，并且集中在一天之内的某几个时间点，这似乎也进一步印证了我们的猜测。

但到此为止仅仅是怀疑，为了证明我们的猜测，我们尝试去复现问题。我们在nginx上部署了一个简单的脚本，用curl命令对同样的tomcat发起每秒一次的请求，但结果比较诡异：

监测方式

监测地址

http版本

频率

所在服务器

目的服务器

问题

nginx

/

1.0

1s

nginx

tomcat

有

curl

/

1.0

1s

nginx

tomcat

无

这跟我们之前的猜测不一致，没办法，尝试在两端抓包查看网络状况，

tomcat抓包：

nginx抓包：

tomcat服务器在7:00:10已经接收了请求并且回复了ACK，7:00:13 nginx超时主动断开连接，7:00:15时tomcat才返回数据，网络的问题被排除了。

http://www.kuqin.com/shuoit/20160201/350382.html

http://chenpipi.blog.51cto.com/8563610/1682450

本文转自Tenderrain 51CTO博客，原文链接：http://blog.51cto.com/tenderrain/1901963，如需转载请自行联系原作者

weixin_39638603

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。