问题现象
硬件环境:
- CPU FT2000-4
- CPU 直出的两个RGMII接口外接网络phy 模块转换成 1000Base-KX
相同硬件环境下,客户发现 定制桌面版系统A(内核 4.4.131)gmac 网口可以正常使用,换成 定制桌面版系统B(内核 5.4.18)后,在终端 ifconfig 输出中看不到 gmac 网口,手 动 ifconfig up 会 报 错 : stmmaceth PHYT0004:00 enaphyt4i0: stmmac_open: Cannot attach to PHY (error: -22)
由此报错,怀疑是 5.4.18内核phy与mac的交互出了问题。
问题定位
gmac 网卡使用的驱动是 st_gmac,内核中源码目录位于:driver/net/ethernet/stmicro。
已知报错发生在 stmmac_open 里,跟踪 5.4.18 代码得知函数调用流程如下:
phylink_bringup_phy 内调用代码如下:
phylink_validate 代码如下:
经测试得知,由于 phylink_is_empty_linkmode 返回值不为 0,导致的 phylink_validate返 回 -22 , 从 而 产 生 报 错 “ stmmac_open: Cannot attach to PHY (error: -22) ” 。
phylink_validate 函数会验证当前 phy 设备对应的 phylink 结构,结合报错输出,猜测可能是 4.4.131 与 5.4.18 内核 phy 层驱动初始化操作的代码差异导致的。
通 过 syslog 里 “ Marvell 88E1111 stmmac-0:10: attached PHY driver [Marvell
88E1111]”一句,得知外接网络模块使用的是 marvell 88E1111 PHY 芯片,其对应的内核源码是 drivers/net/phy/marvell.c。对比 4.4.131 与 5.4.18 的 marvell 88E1111 初始化流程代码,未发现关于 phy 寄存器操作赋值的明显差异。
进一步分析内核代码,4.4.131 代码流程如下图:
对比 4.4.131 和 5.4.18 内核中 stmmac_open 为起点的函数调用流程,发现有以下差异:
- 5.4.18 在 phylink_bringup_phy 调 用 phylink_validate 验 证 成 功 后 , 会 调 用phy_request_interrupt 函数触发 phy 设备中断。
- 4.4.131 不需要经过 validate 这个流程,直接调用 phy_start_interrupts 触发 phy设备中断。
由上述分析,尝试去掉 validate 流程。做如下修改后测试,发现 gmac 网口可以正常启动及使用。
跟踪添加 phylink_validate 函数的 git commit。
commit 9525ae83959b60c6061fe2f2caabdc8f69a48bc6
Author: Russell King <rmk+kernel@arm.linux.org.uk>
Date: Tue Jul 25 15:03:13 2017 +0100
phylink: add phylink infrastructure
这次commit 向内核中添加了 phylink 机制。根据 commit 描述,得知创建 Phylink 机制是为了 MAC 和 PHY 之间提供一个中介,为 PHY 提供一种安全的热插拔方式。
5.4.18 与4.4.131 的代码差异是由于 5.4.18 引入了 phylink 机制。
深入 5.4.18 代码跟踪导致 phylink_is_empty_linkmode 返回非零值的变量 supported。supported 是 bitmap 结构,在函数 phylink_bringup_phy 中创建,初始化为当前 phy 设备struct phy_device 里的 supported 值,然后传入 phylink_validate。
phylink_validate 会 将 supported 传 入 ops->validate , 对 应 的 处 理 函 数 是
stmmac_validate。stmmac_validate 里会给 supported 根据性能设置一些 BIT 位。
struct phy_device 里的 supported 值会在 phy_probe 中由当前 phy 驱动定义的 features赋值。
Marvell 88E1111 对应的 phy 驱动定义里并未设置 features,如下图:
将marvell的features配置成PHY_GBIT_FEATURES后,gmac网卡工作正常。
+++ b/drivers/net/phy/marvell.c
@@ -3045,6 +3045,7 @@ static struct phy_driver marvell_drivers[] = {
.phy_id_mask = MARVELL_PHY_ID_MASK,
.name = "Marvell 88E1111",
/* PHY_GBIT_FEATURES */
+ .features = PHY_GBIT_FEATURES,
.probe = marvell_probe,
.config_init = m88e1111gbe_config_init,
.config_aneg = m88e1111_config_aneg,
PS
经过上述分析,5.4.18 内核引入 phylink 机制,而 phylink 支持的属性需要 phy 层驱动配置上相应的 features。本问题是 phy 层驱动未配置 features 属性导致的,置上PHY_GBIT_FEATURES 就可解决。
后续若板载gmac芯片+外接phy芯片,网卡启动就失败,优先检查phy驱动配置的features是否正确。
其次需排查phy芯片工作接口模式是否与物理连接方式一致。
查询网卡phy芯片工作接口模式可通过以下方式:
sujing@sujing-GW-001N1B-FTF:/sys/devices/platform/FTGM0001:00/net/enaftgm1i0$ pwd
/sys/devices/platform/FTGM0001:00/net/enaftgm1i0
sujing@sujing-GW-001N1B-FTF:/sys/devices/platform/FTGM0001:00/net/enaftgm1i0$ cat phydev/phy_interface
gmii