接口 up、down 失败问题排查
接口 up 失败问题
- 排查硬件接线情况
- 确认网卡是否 bypass 卡,检查 bypass 状态
- 收集 ifconfig x/x、ethtool x/x、ethtool -i x/x、ethtool -S x/x、ethtool -d x/x 信息
- 查看 dmesg 信息是否有异常
- 判断接口对应关系是否一致
- 观察接口灯状态
- 判断是否软件问题:mbuf 泄露导致问题
- 软件排查无效后查看光模块型号,判断光模块型号是否兼容
- 判断光模块型号没有问题后,将接口绑定到官方驱动进行测试
- 官方驱动不能正常工作则判定为硬件问题,官方驱动能够正常则判断为驱动问题
备注信息:当接口已经处于 up 状态时,要成功 up,必须先执行 down 操作。
接口 down 失败问题
接口 down 问题一般表现为执行了 down 接口后网卡 link 灯还是亮的、down 了接口后,获取到的接口链路状态还是 up 的。
- 确定网卡型号与对端设备及接口与对端灯的当前状态
- 收集 ifconfig x/x、ethtool x/x、ethtool -i x/x、ethtool -S x/x、ethtool -d x/x 信息
- 查看 dmesg 信息是否有异常
- 查看 dpdk 程序接口日志信息是否有异常
- 查看接口对应关系是否一致
- 上述操作没有异常后,重新执行 up、down 复现问题,硬件问题一般能够必现
- 问题必现后,查看 dpdk 程序是否使能 lsc 中断,使能则关闭重试,未使能继续下一步
- 有条件则使用 dpdk_proc_info 程序收集光模块型号信息,判断是否是兼容的光模块,无条件则执行第 8 步
- 将 down 不掉的网卡接口绑定到官方驱动测试,判断是否有相同问题
- 官方驱动也有相同问题时,排除单个网卡的影响,官方驱动没有问题时,对比驱动代码
- 在多张卡上绑定官方驱动能够复现问题后,协同厂商处理