集群服务器无响应,记一次集群内无可用http服务问题排查

1.摘要

前一阵子发现服务会有偶发的服务不可用的情况,记录一下这个问题的排查过程。

现象是这样的:每天到了某个时间点,就会出现服务不稳定的情况,偶发接口调不通。

线上业务使用了lvs-nginx-tomcat三层结构,首先查看tomcat监控,没有什么特别异常的情况,响应时间和错误码没发现有什么异常,CPU、IO等等指标也都正常。

再查看nginx上的监控,发现在某个时刻这个服务的5xx报错突增,大概7、8秒之后又恢复了。

继续在nginx服务器上找线索,发现Nginx在那个时间点会出现报错:

1

22015/12/24 10:30:38 [error] 13433#0: check time out with peer: 10.79.40.1xx:80

线上nginx会每秒探测后端所有服务器的某个uri,如果返回的http状态码是200则认为正常,连续3次探测失败则摘除探测失败的服务器,直到探测成功再恢复。

从日志中可以发现nginx在出问题的时间点对于后端所有tomcat的探测请求都出现了问题,导致摘除了所有后端服务器,在这段时间里请求会报502异常。

从nginx上的日志可以看到探测请求没有返回,那么请求实际发到tomcat了没有?线上业务中的探测频率是1s/次,于是到tomcat的访问日志里查找线索,过滤一个nginx对tomcat的所有探测请求:

22012GW5-0.jpg

可用看出从7:00:10-7:00:40左右的探测请求是有丢失的。

前端机的负载并不高,于是我们第一时间认为这可能是nginx到tomcat服务器的网络有问题。统计了一下线上日志,出问题的机器集中在某个网段,并且集中在一天之内的某几个时间点,这似乎也进一步印证了我们的猜测。

但到此为止仅仅是怀疑,为了证明我们的猜测,我们尝试去复现问题。我们在nginx上部署了一个简单的脚本,用curl命令对同样的tomcat发起每秒一次的请求,但结果比较诡异:监测方式监测地址http版本频率所在服务器目的服务器问题nginx/1.01snginxtomcat有

curl/1.01snginxtomcat无

这跟我们之前的猜测不一致,没办法,尝试在两端抓包查看网络状况,

tomcat抓包:

22012M123-1.jpg

nginx抓包:

22012I352-2.jpg

tomcat服务器在7:00:10已经接收了请求并且回复了ACK,7:00:13 nginx超时主动断开连接,7:00:15时tomcat才返回数据,网络的问题被排除了。

http://chenpipi.blog.51cto.com/8563610/1682450

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是一个基本的集群服务器上架流程: 1. 确定服务器的用途和规模,选择合适的硬件配置和数量。 2. 安装操作系统和必要的服务。通常情况下,集群服务器使用的操作系统是 Linux,可以使用自动化部署工具如 PXE 或 Kickstart 进行批量安装。必要的服务包括 SSH,NFS,DNS 等。 3. 创建集群管理账户和权限,以及各个节点的访问权限。这样可以确保管理员可以远程管理集群,并且各个节点之间可以互相访问。 4. 配置网络和存储。为了实现节点之间的通信和数据共享,需要为集群配置网络和存储。可以使用专用的网络设备,如交换机和路由器,来实现节点之间的高速通信。存储可以使用本地硬盘、网络存储或分布式文件系统等。 5. 部署集群管理软件。集群管理软件可以帮助管理员管理和监控集群的运行状态,调度任务和资源等。常用的集群管理软件包括 Hadoop,Kubernetes,Slurm 等。 6. 部署应用程序。根据集群的用途,部署相应的应用程序和服务。例如,如果集群用于数据处理和分析,可以部署 Spark,Hive 等相关的应用程序。 7. 测试集群的性能和可靠性。在投入使用之前,需要对集群进行充分的测试,确保其性能和可靠性满足要求。 总的来说,集群服务器上架需要根据具体情况制定合适的方案和流程,确保集群能够满足业务需求,并且可以高效稳定地运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值