昇腾atlas 300 执行npu-smi info报错dcmi module initialize failed. ret is -8005

情况说明

问题:长时间正常使用后,突然昇腾atlas 300 执行npu-smi info报错dcmi module initialize failed. ret is -8005。

  1. 系统版本:FusionOS(uname -m && cat /etc/*release)
  2. CANN版本:6.0.RC1
  3. 驱动版本:22.0.4
  4. 其他使用情况:在/dev路径下无法找到与npu设备相关的davinci*。

问题定位:

查找文档大概率是系统内核与需求版本不一致,有可能是系统自动升级了内核导致的。
1.尝试覆盖安装驱动和固件。📢:如果是覆盖安装一定要先装固件再装驱动

  • 注意安装/卸载顺序。
    • 由于不知道顺序,所以先覆盖安装了驱动,提示指定内核路径后由于不清楚内核路径使用q退出安装。
    • 再安装固件时一直报错[ERROR]Firmware upgrade tool doesn’t exist。
  1. 由于先覆盖安装了驱动,导致npu-smi info命令直接无法使用,所以只能选择卸载安装。
    • 参考文档:https://support.huawei.com/enterprise/zh/doc/EDOC1100349484/2645a51f#ZH-CN_TOPIC_0000001734770217
  2. 在卸载完毕后,需要重启机器。由于原固件以及驱动已经卸载,现在属于重新安装,需要先安装驱动再安装固件。安装驱动时仍提示需要手动输入驱动路径,先q退出安装:
    • uname -a查看正在使用的内核。
    • cd /usr/lib/modules查看当前安装的全部内核版本。
    • 进入到当前的内核版本文件夹内,使用ll命令查看是否有build目录映射,若无则说明系统找不到使用的内核,或当前内核无法直接被使用。
    • 使用yum upgrade更新所有文件,其中内核kernel会自动更新。更新完毕后,重启机器,使更新生效。
    • 重启后uname -a查看正在使用的内核,此时应该使用的是更新后的内核版本。cd /usr/lib/modules找到当前正在使用的内核版本路径中,使用ll命令,此时应该有build的映射目录。
    • 使用npu-smi info应该已经可以正常使用。

总结

  1. 系统自动升级内核,导致与需求版本不匹配,进而无法使用npu-smi info。
  2. 使用yum upgrade升级内核版本,然后重新安装驱动与固件,此时应该能解决相关问题。
  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值