链路抖动问题的排查与处理

链路抖动是指物理接口在至少10秒的时间内持续上升和下降,每秒三次或更多次。常见原因通常与电缆损坏、不受支持或非标准电缆或小型封装热插拔(SFP)或其他链路同步问题有关。链路抖动的原因可能是间歇性或永久性的。

链路抖动通常是物理干扰,因此要采取相应的方式和步骤来诊断和防止以及解决。

问题现象

以数据库主机为例,在出现链路抖动时数据库磁盘链路有异常,IO延迟大,影响数据库的访问,生产业务受到影响。出现此问题需要按照架构层次进行排查,先排查上层操作系统出现的现象,再根据现象进行排查存储、光纤交换机、光纤线缆收发光、光纤模块是否存在问题。

问题处理过程

  • 操作系统排查

在系统中,如使用存储链路抖动或远程数据传输到本地未及时交互完成都可能会出现磁盘busy 增高情况,磁盘IO延时会增大,正常情况下磁盘的响应时间应在10毫秒以下,操作系统查看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等。以AIX操作系统为例(如图2所示)。

▲图2 磁盘响应

  • 存储排查

排查存储上对应端口的误码情况。排查方法:根据告警信息确认存储端口,如华为存储告警信息是The link between the initiator (type FC, identifier 0x10000000c995b100) of the host(name hostname) and the host port (Engine0, interface module A2, port number P0) is unstable.表示引擎0的A2扣卡上P0 和FC端口与主机连接不稳定。

登录DeviceManager主界面“首页”>“管理硬件设备”>“监控控制器”>“管理FC接口模块”的操作提示,清除所有FC端口误码统计。如下图3所示:

图片

▲图3 存储设备管理界面

系统运行一段时间(如1小时)后,重新查看告警内容中的端口的“线路误码统计”增长情况。若误码增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来确认误码消除情况。

  • 光纤交换机排查

排查交换机上的误码增长情况。以博科和SNS系列交换机进行说明,登陆交换机的CLI命令行,通过CLI命令statsclear和porterrshow清除和查看当前误码情况。

▲图4 SAN交换机误码统计

运行一段时间(如1小时)后重新使用CLI命令porterrshow查看端口统计情况。若enc in和enc out增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码。

总结

在操作系统出现磁盘性能问题后,根据现象检查光纤交换机和存储的误码情况,更换线缆、光纤模块等操作后检查问题是否解决。如检查各项都在正常范围且无硬件告警,说明底层硬件没有问题,可以检查端口流量是否跑满;如端口已经跑满说明业务系统流量较大,如数据库在跑大的查询,建议可以优化SQL和检查索引是否添加等。在底层架构无法进行优化的情况下考虑对上层业务层面进行优化,缓解压力。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值