java中连接服务端接口超时,服务器诡异的请求超时问题

最新推荐文章于 2024-03-10 03:00:00 发布

weixin_39537680

最新推荐文章于 2024-03-10 03:00:00 发布

阅读量1.3k

点赞数

文章标签： java中连接服务端接口超时

本文记录了一次线上服务请求超时的问题排查过程。问题表现为前端请求后端服务时出现两秒超时，但后端实际上完成了请求。通过对系统日志、IO使用状况的深入分析，发现一个名为`sas3flash`的HBA管理工具在执行时导致了IO堵塞，从而引发了超时。该工具属于腾讯云黑石监控组件的一部分，其`--list`命令通过ioctl调用导致了问题。目前，解决方案是禁止该命令的执行，等待腾讯云的修复更新。

摘要由CSDN通过智能技术生成

前些日子，监控显示线上偶尔发生请求两秒超时的情况。解决这个问题前前后后花了不少时间，也走了一些弯路。这里记录下来备忘。

前期分析

首先需要了解一下我们的服务：

我们的服务是一组无状态的前端服务器加上有状态的后端存储层。

这些服务都部署在腾讯云黑石服务器上面。

第一件事是要定位问题出现在前端还是后端。通过日志，我们发现在出错时间段里，每个前端服务器都有报错，并且出错请求都是发往同一后端服务器的。由此可见，问题出现在后端服务上。

接下来，需要分析出错的特征。通过日志发现错误都是因为前端两秒超时导致，而后端在前端超时之后事实上是完成了请求。因为是存储服务，我们自然在第一时间就查看了磁盘的情况。果然，在出错时，磁盘的io.util非常高(sar -dp的输出，从第4列开始分别是tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util)：

需要注意的是：

io.util非常高，且只持续了2~3秒

几乎所有盘的io.util都高

io的tps和吞吐并不高

另外，还发现了另外一个规律：单台机器，大概每12小时左右会出现io.util高，并伴随着超时出错：

问题排查

快速排查

我们做了一些快速排查，试图以比较小的代价找到问题的根源：

查看系统的定时任务

查看系统日志

查看存储服务代码中的定时任务

可惜，都没有发现有价值的线索。于是推测，一定是有一个我们不知道的存在以12小时为周期在消耗IO。

追踪IO使用状况

先使用iotop来定位出错时刻是谁占用了大量IO：

python /sbin/iotop -bPto -n 86400 > iotop.log

上述命令以批处理的形式，每1秒一个输出，一共持续86400秒(24小时)。同样，并没有发现除了我们程序之外的可疑线程。

Iotop虽然是一个好工具，然而一个缺陷是并没有详细的文档说明它的工作原理。对于一个系统工具来说，原理性的文档还是很有必要的。在这种情况下，我们怀疑iotop并不能真实的反映进程的IO使用状况。为了再次确认，我们采用SystemTap来统计IO调用。下面是改良过的iotop.stp：

global count_stacks

global size_stacks

g

最低0.47元/天解锁文章

weixin_39537680

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。