问题现象
HCCS查询不到
正常的
处理过程
1.dmesg | grep npu存在多个npu报错
2.用下面命令进环境检查构建时间,以及实际各个组件的固件版本
查固件
/use/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version
查驱动构建时间
cat /use/local/Ascend/driver/build.info
检查发现固件未升级完整,带内升级后正常
已知问题:
a) 设备本身不支持HCCS查询比如A800I A2 PCIe款/非HCCS款。
b) 驱动版本未达到24.1.rc1及以上,此功能是HDK 24.1.rc1版本合入的。
c) 固件firmware版本与驱动driver版本不配套。
d) 固件firmware版本升级生效不完整
e) 查询命令错误写成npu-smi info -t hccs -i 0 -c 1,A800T A2八卡,每张卡单芯,故只能查到-c 0
基本排查方法:
a) 确认产品型号,是否是HCCS款,每张卡是单芯还是双芯;
b) 确认驱动版本:是否大于等于24.1.rc1,命令是npu-smi info
c) 确认固件版本:是否大于等于7.1.0.6.220并且与驱动配套,命令是npu-smi info -t board -i NPUid ,配套的话回显Compatibility那行需要是OK
d) 确认固件版本是否在各个组件全部生效,命令是/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version