nvidia-smi:Failed to initialize NVML: Driver/library version mismatch

nvidia-smi:Failed to initialize NVML: Driver/library version mismatch

  • nvidia-smi报错,驱动和库版本不对应

原因

  • 之前禁用了ubuntu内核更新,忘记禁止libnvidia-compute包更新了,今天ubuntu软件更新时,没有注意到更新了libnvidia-compute,可以通过/var/log/apt/history.log文件查看更新记录

    cat /var/log/apt/history.log
    
    #输出结果如下:
    Start-Date: 2023-08-01  08:49:29
    Commandline: aptdaemon role='role-commit-packages' sender=':1.111'
    Install: firefox:amd64 (1:1snap1-0ubuntu2, automatic), libnvidia-compute-525:amd64 (525.125.06-0ubuntu0.22.04.1, automatic)
    ...
    
  • 查看当前的驱动版本

    cat /proc/driver/nvidia/version
    
    #输出结果如下:
    NVRM version: NVIDIA UNIX x86_64 Kernel Module  525.105.17  Tue Mar 28 18:02:59 UTC 2023
    GCC version:  gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04) 
    
  • 可以看到驱动版本为525.105.17,lib文件升级到了525.125.06

解决办法

  • 方法一没有成功,方法二没有验证,仅记录下思路,方法三成功解决问题

方法一

  • 卸载掉libnvidia-compute-525.125.06,然后在把525.105.17装上去

  • 可是没有找到对应的安装包,只搜索到了125的安装包 😭

    jing@jing:~$ sudo apt search libnvidia-compute-525*
    [sudo] jing 的密码: 
    正在排序... 完成
    全文搜索... 完成  
    libnvidia-compute-510/jammy-updates,jammy-security,now 525.125.06-0ubuntu0.22.04.1 amd64 [已安装,自动]
      Transitional package for libnvidia-compute-525
    
    libnvidia-compute-515/jammy-updates,jammy-security 525.125.06-0ubuntu0.22.04.1 amd64
      Transitional package for libnvidia-compute-525
    
    libnvidia-compute-515-server/jammy-updates,jammy-security 525.125.06-0ubuntu0.22.04.1 amd64
      Transitional package for libnvidia-compute-525-server
    
    libnvidia-compute-520/jammy-updates,jammy-security 525.125.06-0ubuntu0.22.04.1 amd64
      Transitional package for libnvidia-compute-525
    
    libnvidia-compute-525/jammy-updates,jammy-security,now 525.125.06-0ubuntu0.22.04.1 amd64 [已安装,自动]
      NVIDIA libcompute package
    
    libnvidia-compute-525-server/jammy-updates,jammy-security 525.125.06-0ubuntu0.22.04.1 amd64
      NVIDIA libcompute package
    
  • 去网站上有没有搜索到,到此,方法一破产

方法二

  • 参考博客

    sudo rmmod nvidia
    
  • 不幸的是我看到这篇博客的时候,已经直接把驱动给卸载重装了

方法三

  • 直接卸载驱动,然后重新装一下(比较费劲,如果可以还是试一下方法二

  • sudo apt purge nvidia*
    
  • 重启一下

  • 此处下载Nvidia官方脚本

  • 给脚本可执行权限

  • 如果是有桌面的话,直接运行可能会报错

    You appear to be running an X server; please exit X before installing
    
  • 可以使用tty模式或者使用ssh连接进行无桌面安装

  • 此处使用的是ssh连接,这样有个好处,如果进不去桌面,可以通过ssh进行操控😎,ssh连接可以参考虑这篇博客

  • ssh连接之后,首先关闭桌面

    #ubuntu22.04的桌面为gdm3
    sudo /etc/init.d/gdm3 stop
    
  • 运行安装脚本,安装32位计算库,不配置Xorg

  • 到此处就安装完成,nvidia-smi可完整输出

    jing@jing:~$ nvidia-smi
    Tue Aug  1 19:09:27 2023       
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  NVIDIA GeForce ...  Off  | 00000000:10:00.0 Off |                  N/A |
    | 35%   59C    P2   133W / 170W |  11110MiB / 12288MiB |     83%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    |    0   N/A  N/A      2241      G   /usr/lib/xorg/Xorg                  4MiB |
    |    0   N/A  N/A     11629      C   python                          11100MiB |
    +-----------------------------------------------------------------------------+
    
  • 此时再启动桌面

    sudo /etc/init.d/gdm3 restart
    
  • 到此完结🚀🚀🚀🚀🚀

后续处理

  • 保留libnvidia-compute软件包,不再更新
jing@jing:~$ sudo apt-mark hold libnvidia-compute-525
[sudo] jing 的密码: 
libnvidia-compute-525 设置为保留。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当使用nvidia-smi命令时,出现"Failed to initialize NVML: Driver/library version mismatch"错误,这意味着您的显卡驱动与内核版本不匹配。该错误通常发生在系统自动更新了显卡驱动程序的情况下,而没有及时同步更新内核。这是一个非人为因素导致的问题。 为了解决这个问题,有一种方法可以尝试,而不需要重启服务器。您可以通过卸载现有的NVIDIA驱动程序并重新安装匹配的驱动程序来解决版本不匹配的问题。以下是详细步骤: 1. 首先,您需要确定您正在使用的驱动程序的版本。使用以下命令检查已安装的NVIDIA驱动程序版本: ``` nvidia-smi ``` 2. 然后,根据您的驱动程序版本,访问NVIDIA官方网站(https://www.nvidia.com/drivers)下载相应的驱动程序,确保它与您的内核版本兼容。 3. 在下载并安装驱动程序之前,您需要通过卸载已安装的驱动程序来清理系统。使用以下命令卸载驱动程序: ``` sudo apt purge nvidia* ``` 4. 安装新的驱动程序。您可以使用以下命令进行安装: ``` sudo sh NVIDIA-Linux-x86_64-xxx.xx.run ``` 其中“NVIDIA-Linux-x86_64-xxx.xx.run”是您下载的驱动程序文件的名称。 5. 安装完成后,重新启动系统以使更改生效。 通过执行以上步骤,您应该能够解决"Failed to initialize NVML: Driver/library version mismatch"错误,并使nvidia-smi命令正常工作。请确保下载和安装适用于您的驱动程序版本和内核版本的正确驱动程序。 此外,您还可以使用以下命令来查看nvidia模块的使用情况: ``` lsmod | grep nvidia ``` 这将显示与nvidia相关的模块列表,以确认驱动程序是否正确加载。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【nvidia-smiFailed to initialize NVML: Driver/library version mismatch解决方法(不用重启)](https://blog.csdn.net/qq_48081868/article/details/122349627)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值