NVIDIA 完全过渡到开源 GPU 内核模块


借助 R515 驱动程序,NVIDIA 于 2022 年 5 月发布了一组 Linux GPU 内核模块,作为具有 GPL 和 MIT 双重许可的开源模块。初始版本以数据中心计算 GPU 为目标,GeForce 和 Workstation GPU 处于 alpha 状态。

当时,NVIDIA宣布后续版本将提供更强大、功能更齐全的 GeForce 和 Workstation Linux 支持,NVIDIA 开放内核模块最终将取代闭源驱动程序。

NVIDIA GPU 共享通用的驱动程序架构和功能集。适用于台式机或笔记本电脑的同一驱动程序可在云中运行世界上最先进的 AI 工作负载。对我们来说,恰到好处地做到这一点非常重要。

两年过去了,NVIDIA通过开源 GPU 内核模块实现了同等或更好的应用程序性能,并增加了大量新功能:

  • 异构内存管理 (HMM)
  • 支持机密计算
  • Grace 平台的一致内存架构
  • 还有更多…

NVIDIA现在正处于完全过渡到开源 GPU 内核模块的正确举措,NVIDIA将在即将发布的 R560 驱动程序版本中做出这一改变。

支持的 GPU

并非每个 GPU 都与开源 GPU 内核模块兼容。

对于 NVIDIA Grace Hopper 或 NVIDIA Blackwell 等尖端平台,必须使用开源 GPU 内核模块。这些平台不支持专有驱动程序。

对于来自 Turing、Ampere、Ada Lovelace 或 Hopper 架构的较新 GPU,NVIDIA 建议切换到开源 GPU 内核模块。

对于 Maxwell、Pascal 或 Volta 架构中较旧的 GPU,开源 GPU 内核模块与这些平台不兼容。需要继续使用 NVIDIA 专有驱动程序。

对于在同一系统中使用较旧和新 GPU 的混合部署,请继续使用专有驱动程序。

如果不确定,NVIDIA 会提供一个新的检测帮助程序脚本来帮助指导您选择哪个驱动程序。有关详细信息,请参阅本文后面的“使用安装帮助程序脚本”部分。

安装程序更改

通常,所有安装方法安装的驱动程序的默认版本都是从专有驱动程序切换到开源驱动程序。有几个特定方案值得特别注意:

  • 使用 CUDA 元包的包管理器
  • 运行文件
  • 安装帮助程序脚本
  • 包管理器详细信息
  • 适用于 Linux 的 Windows 子系统
  • CUDA工具包

将包管理器与 CUDA 元包配合使用

使用包管理器(而不是 .run 文件)安装 CUDA Toolkit 时,安装CUDA 元包存在并且常用。通过安装顶级软件包,您可以安装 CUDA 工具包和关联的驱动程序版本的组合。例如,通过在 CUDA 12.5 发布时间范围内安装 cuda,您可以获得专有的 NVIDIA 驱动程序 555 以及 CUDA 工具包 12.5。

图 1 显示了此包结构。
在这里插入图片描述
以前,使用开源 GPU 内核模块意味着可以使用顶级元包。您必须安装特定于发行版的 NVIDIA 驱动程序开放包以及您选择的 cuda-toolkit-X-Y 包。

从 CUDA 12.6 版本开始,流程有效地切换了位置(图 2)。
图 1.CUDA Toolkit 12.6 之前的 CUDA 包

使用 runfile

如果您使用该文件安装 CUDA 或 NVIDIA 驱动程序,安装程序会查询您的硬件并自动为您的系统安装最适合的驱动程序。UI 切换也可用于在专有驱动程序和开源驱动程序之间进行选择,具体取决于您的选择。

如果通过 CUDA .run 文件并使用用户界面进行安装,则现在会看到类似于以下内容的菜单:
在这里插入图片描述

如果通过驱动程序 .run 文件进行安装,则会看到类似的选择(图 3)。
图3.新的 runfile 交互式选择(驱动程序安装程序)

您还可以使用命令行传递覆盖,以便在没有用户界面的情况下进行安装,或者如果您使用的是 Ansible 等自动化工具。

# sh ./cuda_12.6.0_560.22_linux.run --override --kernel-module-type=proprietary
 
# sh ./NVIDIA-Linux-x86_64-560.run --kernel-module-type=proprietary

使用安装帮助程序脚本

如前所述,如果您不确定要为系统中的 GPU 选择哪个驱动程序,NVIDIA 创建了一个帮助程序脚本来指导您完成选择过程。

要使用它,请先使用包管理器安装包,然后运行脚本:nvidia-driver-assistant

$ nvidia-driver-assistant

包管理器详细信息

为了获得一致的体验,NVIDIA 建议您使用包管理器来安装 CUDA 工具包和驱动程序。但是,不同发行版使用哪些包管理系统或软件包的结构的具体细节可能因特定发行版而异。

本部分概述了各种平台所需的特定详细信息、注意事项或迁移步骤。

apt:基于 Ubuntu 和 Debian 的发行版

运行以下命令:

$ sudo apt-get install nvidia-open

要在 Ubuntu 20.04 上使用 metapackage 进行升级,请先切换到打开内核模块:cuda

$ sudo apt-get install -V nvidia-kernel-source-open
 
$ sudo apt-get install nvidia-open

dnf:Red Hat Enterprise Linux、Fedora、Kylin、Amazon Linux 或 Rocky Linux

运行以下命令:

$ sudo dnf module install nvidia-driver:open-dkms

要在基于 dnf 的发行版上使用元包进行升级,必须禁用模块流:cuda

$ echo "module_hotfixes=1" | tee -a /etc/yum.repos.d/cuda*.repo
$ sudo dnf install --allowerasing nvidia-open
$ sudo dnf module reset nvidia-driver

zypper:SUSE Linux Enterprise Server 或 OpenSUSE

运行以下命令之一:

# default kernel flavor
$ sudo zypper install nvidia-open
# azure kernel flavor (sles15/x86_64)
$ sudo zypper install nvidia-open-azure
# 64kb kernel flavor (sles15/sbsa) required for Grace-Hopper
$ sudo zypper install nvidia-open-64k

包管理器摘要

为简化起见,我们以表格格式压缩了包管理器建议。驱动程序版本 560 和 CUDA 工具包 12.6 之后的所有版本都将使用这些打包约定。

发行版	安装最新的	安装特定版本
Fedora/RHEL/Kylin	dnf module install nvidia-driver:open-dkms	dnf module install nvidia-driver:560-open
openSUSE/SLES	zypper install nvidia-open{-azure,-64k}	zypper install nvidia-open-560{-azure,-64k}
Debian 的	apt-get install nvidia-open	apt-get install nvidia-open-560
Ubuntu的	apt-get install nvidia-open	apt-get install nvidia-open-560
表 1.包管理器安装建议

有关更多信息,请参阅 NVIDIA 数据中心驱动程序

适用于 Linux 的 Windows 子系统

适用于 Linux 的 Windows 子系统 (WSL) 使用主机 Windows 操作系统中的 NVIDIA 内核驱动程序。您不应专门在此平台中安装任何驱动程序。如果使用的是 WSL,则无需进行任何更改或操作。

CUDA工具包

CUDA Toolkit 的安装通过包管理器保持不变。运行以下命令:

$ sudo apt-get/dnf/zypper install cuda-toolkit

更多信息
有关如何安装 NVIDIA 驱动程序或 CUDA 工具包的更多信息,包括在目前无法迁移到开源 GPU 内核模块时如何确保安装专有驱动程序,请参阅《CUDA 安装指南》中的驱动程序安装

Github

https://github.com/NVIDIA/open-gpu-kernel-modules

NVIDIA Linux 开放 GPU 内核模块源代码
这是 NVIDIA Linux 开放 GPU 内核模块的源代码版本, 版本 550.100。

如何构建

要构建:

make modules -j$(nproc)

要安装,请先卸载所有现有的 NVIDIA 内核模块。然后 作为 root:

make modules_install -j$(nproc)

请注意,此处构建的内核模块必须与 GSP 一起使用 固件和用户空间 NVIDIA GPU 驱动程序组件来自相应的 550.100 驱动程序版本。这可以通过安装来实现 使用 .run 文件中的 NVIDIA GPU 驱动程序。例如,–no-kernel-modules

sh ./NVIDIA-Linux-[...].run --no-kernel-modules

支持的目标 CPU 体系结构

目前,内核模块可以针对 x86_64 或 aarch64 构建。 如果是交叉编译,请在 make 命令行上设置以下变量:

TARGET_ARCH=aarch64|x86_64
CC
LD
AR
CXX
OBJCOPY

例如,

# compile on x86_64 for aarch64
make modules -j$(nproc)         \
    TARGET_ARCH=aarch64         \
    CC=aarch64-linux-gnu-gcc    \
    LD=aarch64-linux-gnu-ld     \
    AR=aarch64-linux-gnu-ar     \
    CXX=aarch64-linux-gnu-g++   \
    OBJCOPY=aarch64-linux-gnu-objcopy

其他构建旋钮

NV_VERBOSE - 将其设置为“1”以打印执行的每个完整命令; 否则,将打印简洁的“CC”行。

DEBUG - 将此值设置为“1”以将内核模块构建为调试。默认情况下, 生成编译,不调试信息。这也使 内核模块中的各种调试日志消息。

这些变量可以在 make 命令行上设置。例如,

make modules -j$(nproc) NV_VERBOSE=1

支持的工具链

任何相当现代的 GCC 或 Clang 版本都可用于构建 内核模块。请注意,内核的内核接口层 模块必须使用用于构建 内核。

支持的 Linux 内核版本

NVIDIA 开放内核模块支持相同范围的 Linux 内核 专有 NVIDIA 内核模块支持的版本。 目前是 Linux 内核 3.10 或更高版本。

如何贡献

可以通过在 https://github.com/NVIDIA/open-gpu-kernel-modules 上创建拉取请求来做出贡献,我们将通过 GitHub 进行响应。

请注意,提交拉取请求时,系统将提示您接受 贡献者许可协议。

该代码库与 NVIDIA 的专有驱动程序共享,并且各种 对共享代码执行处理以生成源代码,即 在这里发布。这对可预见的未来有几个影响:

  • GitHub 存储库将主要用作每个驱动程序的快照 释放。
  • 我们不希望能够为个人提供修订历史记录 对 NVIDIA 的共享代码库所做的更改。可能会有 每个驱动程序版本只有一个 Git 提交。
  • 我们可能无法将个人贡献作为单独的贡献来反映 GitHub 存储库中的 git 提交。
  • 由于代码在发布之前会经过各种处理, 此处所做的贡献需要手动合并才能应用于共享 代码库。因此,此处进行的大型重构更改可能难以合并并接受回共享代码库。如果你有大 重构建议,请提前联系我们,以便我们进行协调。

如何报告问题

特定于 Open GPU 内核模块的问题可以在 https://github.com/NVIDIA/open-gpu-kernel-modules 存储库的“问题”部分。

此外,任何现有的错误报告场所都可用于通信 NVIDIA的问题,例如我们的论坛:

https://forums.developer.nvidia.com/c/gpu-graphics/linux/148

或 linux-bugs@nvidia.com。

请参阅“NVIDIA 联系信息和其他资源”部分 的 NVIDIA GPU 驱动程序自述文件了解详情。

如果您符合以下条件,请参阅单独的 SECURITY.md 文档 相信您已在此软件中发现了安全漏洞。

内核模块的内核接口和与操作系统无关的组件

NVIDIA的大多数内核模块都分为两个组件:

  • “与操作系统无关”的组件:这是每个内核模块的组件 这与操作系统无关。
  • “内核接口层”:这是每个内核模块的组件 特定于 Linux 内核版本和配置。

打包在 NVIDIA .run 安装包中时,与操作系统无关的 组件以二进制形式提供:它很大且耗时 编译,因此提供了预构建版本,以便用户执行 不必在每次驱动程序安装期间对其进行编译。对于 nvidia.ko 内核模块,此组件名为“nv-kernel.o_binary”。 对于 nvidia-modeset.ko 内核模块,此组件名为 “nv-modeset-kernel.o_binary”。nvidia-drm.ko 和 nvidia-uvm.ko 都不是 具有与操作系统无关的组件。

必须构建每个内核模块的内核接口层组件 对于目标内核。

目录结构布局

  • kernel-open/内核接口层
  • kernel-open/nvidia/nvidia.ko 的内核接口层
  • kernel-open/nvidia-drm/nvidia-drm.ko 的内核接口层
  • kernel-open/nvidia-modeset/nvidia-modeset.ko 的内核接口层
  • kernel-open/nvidia-uvm/nvidia-uvm.ko 的内核接口层
  • src/与操作系统无关的代码
  • src/nvidia/nvidia.ko 的与操作系统无关的代码
  • src/nvidia-modeset/nvidia-modeset.ko 的与操作系统无关的代码
  • src/common/nvidia.ko 和 nvidia-modeset.ko 中的一个或多个使用的实用程序代码
  • nouveau/用于与 Nouveau 设备驱动程序集成的工具

Nouveau 设备驱动程序集成

“nouveau”目录中的 Python 脚本用于提取一些 在源代码中编码的固件二进制映像(和相关数据)和 将它们存储为不同的文件。这些文件由 Nouveau 设备使用 驱动程序加载并与 GSP 固件通信。

二进制文件的布局如nouveau_firmware_layout.ods中描述, 这是一个 OpenDocument 电子表格文件,与大多数电子表格兼容 软件应用程序。

兼容的 GPU

NVIDIA 开放内核模块可用于任何图灵或更高版本的 GPU (具体见Github链接)。但是,在 DRIVER_VERION 版本中,GeForce 和 工作站支持被认为是 Beta 质量的。开放的内核模块 适合广泛使用,NVIDIA 会就任何问题请求反馈 遇到特定于他们。

有关功能支持和限制的详细信息,请参阅 NVIDIA GPU 驱动程序 最终用户自述文件:

https://us.download.nvidia.com/XFree86/Linux-x86_64/550.100/README/kernel_open.html

有关 vGPU 支持,请参阅 vGPU 主机中打包的 README.vgpu 打包了解更多详情。

在下表中,如果列出了三个 ID,则第一个是 PCI 设备 ID,第二个是 PCI 子系统供应商 ID,第三个是 PCI 子系统设备 ID。

Forums

https://forums.developer.nvidia.com/c/gpu-graphics/linux/148

参考链接

https://developer.nvidia.com/blog/nvidia-transitions-fully-towards-open-source-gpu-kernel-modules/
https://developer.nvidia.com/zh-cn/blog/nvidia-releases-open-source-gpu-kernel-modules/

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 开源项目是指源代码对公众开放,允许任何人查看、使用甚至修改和分发的软件项目。而40V/4A数控电源则是一种电子设备,用于控制和调节电流电压输出。原理图模块化是指将电源的原理图分解为不同的模块,每个模块都具有独立的功能,可以独立设计和布局。 开源项目40V/4A数控电源的原理图模块化带来了一些好处。首先,模块化的原理图让整个电源设计更加灵活和可扩展。不同的模块可以分别设计和测试,并且可以根据需求进行组合和调整。这样一来,如果需要改变电源的输出电压或电流范围,只需更换或修改相应的模块即可,而不需要重新设计整个电源。 其次,模块化的原理图使得电源的维护和升级更加容易。当某个模块出现故障或需要升级时,只需更换或升级对应的模块,而不需要对整个电源进行维修或更新。这样一来,大大减少了维护和升级的时间和成本。 另外,开源项目使得任何人都可以查看和使用40V/4A数控电源的源代码和原理图。这种透明度可以促进用户和开发者之间的合作和知识分享。用户可以根据自己的需求定制和优化电源设计,开发者可以受益于用户的反馈和建议,不断改进和完善电源功能和性能。 总之,开源项目40V/4A数控电源的原理图模块化具有灵活性、可扩展性和易维护性的优势,并且通过开放源代码促进了合作和创新。这种开源项目为电源设计领域带来了更多的可能性和机会。 ### 回答2: 开源项目40V/4A数控电源是一个模块化设计的电源开源项目。电源主要用于控制电流和电压输出,在40V的电压范围内提供最大4A的电流输出能力。 模块化设计意味着该电源项目的原理图和电路板设计被划分为多个独立的模块,每个模块负责完成特定的功能。这种设计使得电源的维护和升级变得更加简单和灵活。如果某个模块需要维修或者进行改进,只需要更换该模块而无需对整个电源进行修复或升级。 模块化设计的另一个优势是能够快速适应不同的需求。通过更换不同的模块,可以实现不同电压和电流输出范围的定制化需求。这样的设计使得该开源项目能够适用于不同的应用场景,增加了其灵活性和适用性。 该开源项目的原理图模块化设计还使得电源的调试和故障排除变得更加容易。通过将电源拆分为多个模块,可以更好地定位和解决故障。如果某个模块出现故障,只需要排查该模块相关的原理图,大大减少了故障排查的复杂度。 总而言之,开源项目40V/4A数控电源通过原理图模块化设计,实现了电源的灵活性、可定制性和易维护性。这种设计方式能够满足不同应用场景的需求,并方便用户进行调试和维护。 ### 回答3: 开源项目40V/4A数控电源是一个以开源共享方式发布的电源项目。该电源可以提供最大40V的输出电压和最大4A的输出电流。该项目采用了模块化的原理图设计,这意味着电源的原理图可以分解为多个模块,每个模块都可以独立设计、测试和修改。 采用模块化的设计方式有以下几个优点。首先,模块化可以提高设计的可重用性。每个模块可以独立设计,并且可以在其他项目中重复使用,从而提高电源的整体设计效率。其次,模块化设计可以提高项目的可维护性。当需要对特定模块进行修改或者升级时,只需关注该模块的设计,而不用关心整个电源设计的细节,简化了维护的操作。此外,模块化设计也有利于多人合作开发。不同的开发人员可以负责不同的模块设计,各自独立工作,最后将各个模块进行整合。 这个开源项目的模块化原理图设计可能包括输入电源模块、电压调节模块、电流控制模块等。输入电源模块负责将输入电压进行适当的处理和滤波,并提供给下一个模块。电压调节模块负责根据用户的需求,调节输出电压的大小,保持稳定性。电流控制模块负责限制输出电流的大小,以保护电源和被供电设备的安全。 总的来说,开源项目40V/4A数控电源以模块化的原理图设计为基础,实现了高可重用性、易维护性和多人合作开发的优势。通过共享原理图设计,人们可以在此基础上进行二次开发和改进,从而推动电源技术的进步。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

粥粥粥少女的拧发条鸟

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值