情况说明
问题:长时间正常使用后,突然昇腾atlas 300 执行npu-smi info报错dcmi module initialize failed. ret is -8005。
- 系统版本:FusionOS(uname -m && cat /etc/*release)
- CANN版本:6.0.RC1
- 驱动版本:22.0.4
- 其他使用情况:在/dev路径下无法找到与npu设备相关的davinci*。
问题定位:
查找文档大概率是系统内核与需求版本不一致,有可能是系统自动升级了内核导致的。
1.尝试覆盖安装驱动和固件。📢:如果是覆盖安装
一定要先装固件再装驱动
。
- 注意安装/卸载顺序。
- 由于不知道顺序,所以先覆盖安装了驱动,提示指定内核路径后由于不清楚内核路径使用q退出安装。
- 再安装固件时一直报错[ERROR]Firmware upgrade tool doesn’t exist。
- 由于先覆盖安装了驱动,导致npu-smi info命令直接无法使用,所以只能选择卸载安装。
- 参考文档:
https://support.huawei.com/enterprise/zh/doc/EDOC1100349484/2645a51f#ZH-CN_TOPIC_0000001734770217
- 参考文档:
- 在卸载完毕后,需要重启机器。由于原固件以及驱动已经卸载,现在属于
重新安装
,需要先安装驱动再安装固件
。安装驱动时仍提示需要手动输入驱动路径,先q退出安装:uname -a
查看正在使用的内核。cd /usr/lib/modules
查看当前安装的全部内核版本。- 进入到当前的内核版本文件夹内,使用
ll
命令查看是否有build目录映射,若无则说明系统找不到使用的内核,或当前内核无法直接被使用。 - 使用
yum upgrade
更新所有文件,其中内核kernel会自动更新。更新完毕后,重启机器,使更新生效。 - 重启后
uname -a
查看正在使用的内核,此时应该使用的是更新后的内核版本。cd /usr/lib/modules
找到当前正在使用的内核版本路径中,使用ll
命令,此时应该有build的映射目录。 - 使用npu-smi info应该已经可以正常使用。
总结
- 系统自动升级内核,导致与需求版本不匹配,进而无法使用npu-smi info。
- 使用
yum upgrade
升级内核版本,然后重新安装驱动与固件,此时应该能解决相关问题。