旧 docker 版本通过 nvkind 搭建虚拟多节点 gpu 集群的坑

最新推荐文章于 2025-05-17 17:58:40 发布

我没有开挂

最新推荐文章于 2025-05-17 17:58:40 发布

阅读量331

点赞数 2

文章标签： docker 容器运维

本文链接：https://blog.csdn.net/H12590400327/article/details/148012028

版权

踩坑

参考nvkind教程安装到Setup这一步，由于docker版本较旧，–cdi.enabled 和 config 参数执行不了

手动修改 /etc/docker/daemon.json 配置文件

    "features": {
        "cdi": true
    }

手动修改 /etc/nvidia-container-runtime/config.toml 配置文件

accept-nvidia-visible-devices-as-volume-mounts = true

然后再重启 docker

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我没有开挂

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

多节点多 GPU：大规模使用 NVIDIA cuFFTMp FFT

qq_27815483的博客

07-11

1161

本文主要介绍了多节点多 GPU：大规模使用 NVIDIA cuFFTMp FFT

从零搭建可分配节点GPU资源至容器的Kubernetes集群（Nvidia版本）

T型人小付的博客

05-20

4248

最近和AI团队一起做项目，需要将机器学习的项目部署进k8s。因为要使用节点的GPU资源，普通部署的k8s集群不能用了，因为docker只能对CPU和内存而不能对GPU资源进行共享和隔离。这一节我们就一起来看看怎么部署一个能分配GPU资源的k8s集群。我是T型人小付，一位坚持终身学习的互联网从业者。喜欢我的博客欢迎在csdn上关注我，如果有问题欢迎在底下的评论区交流，谢谢。文章目录操作环境利用kubeadm安装GPU节点安装准备查看Linux的GPU信息安装nvidia-docker2GPU节点加入集

参与评论您还未登录，请先登录后发表或查看评论

基于docker的集群搭建

qq_45841851的博客

12-28

2400

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AHyZbvk7-1672214916036)(C:\Users\86151\AppData\Roaming\Typora\typora-user-images\image-20221222153732976.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bO6PtEdq-1672214916038)(imgs\2020-02-25_091958.png)]上传solr的配置文件。

slurm-gpu集群搭建详细步骤

热门推荐

Frank-Li的博客

08-11

1万+

初衷首先，slurm搭建的初衷是为了将我多个GPU机器连接起来，从来利用多台机器的计算能力，提高计算效率，之前使用过deepops去搭建，结果最后好像deepops对GPU的卡有要求，我的每台机器卡都不一样，所以后面就开始研究slurm集群的方式了。 1、参考文档之前参考过诸多文档，中间会出现各种奇怪的错误，后来还是通过docker的方式去装才成功，不通过docker的还在探索中，以后成功会出新视频。（1）官网文档 slurm官网（2）git上docke...

docker19.03.15版本k8s集群配置GPU支持

koukouwuwu的专栏

06-11

810

docker19.03以上版本k8s配置GPU支持是豆腐啊 2020-12-21 14:49:20 191 收藏分类专栏： Linux Docker 文章标签： kubernetes docker centos gpu 版权基本环境搭建k8s步骤请参考文章centos7 使用kubeadm部署k8s 以下操作均为gpu节点机上操作进行系统 centos7 1 docker版本 docker 19.03+ 1 k8s版本 kubelet-1.15.1 kubeadm-1.15.1 kubec..

基于ubuntu20.4搭建的K8S集群新增工作节点带GPU显卡过程记录

那个那个

06-16

2897

参考：https://blog.csdn.net/Y3_flybird/article/details/126846976。节点打标签使其可以调度vgpu管理程序。升级后可以正常查看PCI显卡型号。以上，gpu节点安装完成。查看支持的显卡驱动版本。

K8S节点GPU虚拟化(vGPU)

windfbi

07-28

3627

4paradigm提供了k8s-device-plugin，该插件基于NVIDIA官方插件(NVIDIA/k8s-device-plugin)，在保留官方功能的基础上，实现了对物理GPU进行切分，并对显存和计算单元进行限制，从而模拟出多张小的vGPU卡。，虚拟化之后原GPU可以切成6份使用，每份占用显存8Gi，虚拟化之后多出的显存实际是用内存作显存使用，所以注意节点的内存大小（要留够节点正常运行所需的内存），不然会出现OOM的情况，在需要进行虚拟化的节点打上标签nvidia-vgpu: "on"即可。

Docker：Windows中搭建Docker集群环境方法介绍

netyeaxi的专栏

04-12

1535

Windows中搭建Docker集群环境方法介绍。

Docker Swarm集群管理

focus：Follow One Cause Until Success

05-15

1494

在集群环境中，因为不同节点的系统、配置、环境等的不同，导致有的服务只能在只能在指定的机器上跑（如：只在带GPU机器上跑人工智能相关模型的服务），或者由于业务原因导致我们需要在特定的节点上跑相关服务。Docker Swarm采用懒加载的方式进行服务的部署，当调用完部署服务的命令后，可能会长时间看到服务没有正常启动，日志也没有任何输出，此时有可能是因为系统中还没有下载相关的镜像，Docker引擎正在后台默默的下载镜像。命令来查看节点的详情信息，如：我们可以通过inspect命令来查看我们对节点设置的标签信息。

搭建rke2的GPU集群并使用rancher管理：基于ubuntu 22.04 LTS

weixin_45332791的博客

09-15

2155

最近在给课题组搭服务器。此文档讲述了拿到裸机以后，如何将它们配置为rke2集群并使用rancher管理。

X86架构服务器/虚拟机基于Docker和Keepalived搭建MySQL8.0.30主主复制集群

cheagoun的博客

05-15

1311

前置条件：1、各节点均已安装操作系统 OpenEuler 20.03 (LTS-SP3)

K8S+GPU+docker19.03搭建手册

fulin9452的博客

03-20

3873

注意：本文安装master地址为192.168.1.9，请根据个人情况更改！！！本篇为安装随笔记录，详细说明后续更新一、基本安装 1、apt-get install openssh-server 2、改主机名 hostnamectl set-hostname slaver02 vim /etc/cloud/cloud.cfg # This will cause ...

Docker疑难杂症解决指南

_binlong的博客

05-13

591

确保容器在同一网络中，并且DNS配置正确。在使用Docker Compose或Kubernetes等编排工具时，可能会遇到配置错误或资源冲突。检查Docker配置，确保网络连接正常。确保镜像正确无误，并且容器配置（如端口映射、环境变量等）正确。容器无法启动是常见问题之一，通常与镜像、配置或资源限制有关。通过以上方法，可以有效解决Docker使用中的常见问题，确保容器化环境的稳定性和高效性。如果资源占用过高，可以调整容器的资源限制，或优化容器内的应用程序。如果使用私有仓库，确保仓库地址正确，并且有访问权限。

Win11下轻松搭建wiki.js，Docker.desktop部署指南（mysql+elasticsearch+kibana+wiki.js）

wodongx123的博客

05-17

955

系统环境：win11配置要求：能跑得动文中服务总和的内存，8gb至少软件环境：Docker desktop。wiki.js作为一个维基站点，他同时需要两个数据库的支持。正常的关系型数据库，用于用户信息等东西的存储，这里我们用Mysql。一个专门用于海量数据查询的数据库，因为wiki内的数据量很大没用正常的数据库查询会很卡，所以需要用专门用于大数据查询的数据库，也就是ElasticSearch了。

为什么 Docker 建议关闭 Swap

最新发布

呜呼哈

05-17

458

掌握Docker：从运行到挂载的全面指南

专注于技术分享

05-14

308

本文介绍了Docker容器的基本操作命令。首先，通过docker run -it命令可以启动并进入容器的交互式终端，其中-i参数保持标准输入打开，-t参数分配伪终端。使用exit可以退出终端。通过-d参数可以以分离模式运行容器，使其在后台运行。使用docker ps可以查看正在运行的容器，docker stop用于停止容器，docker start和docker restart分别用于启动和重启容器。删除容器可以使用docker rm命令，加上-f参数可以强制删除正在运行的容器。docker inspect

【Docker】Docker安装RabbitMQ

啥都不会的小码农的博客

05-15

389

docker安装rabbitmq

将Docker compose 部署的夜莺V6版本升到V7版本的详细步骤、常见问题解答及相关镜像下载地址

搬砖工

05-16

244

本文讲解Docker compose 部署的夜莺V6版本升到V7版本的详细步骤、并附常见问题解答、相关镜像下载地址。包含：flashcatcloud_categraf_latest.tar、flashcatcloud_ibex_v1_2_0-amd64.tar、flashcatcloud_nightingale_7_7_2.tar

使用 Docker Desktop 安装 Neo4j 知识图谱

IT小郭的技术博客

05-14

815

Neo4j是一个高性能的，基于java开发的，NOSQL图形数据库，它将结构化数据存储在网络上而不是表中；它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。

使用云平台租用的GPU如何临时搭建GPU集群

03-12

<think>好的，我现在需要回答用户关于如何在云平台租用的GPU上临时搭建GPU集群的问题。首先，我得回顾一下用户提供的引用内容，看看有没有相关的信息可以利用。根据引用[1]，阿里云GPU云服务器是推荐的平台之一，所以可能需要提到阿里云作为选项。引用[2]提到选择平台时要考虑性能、成本等因素，这可能在步骤中需要考虑。引用[3]指出云中的GPU是共享的，这可能涉及到资源分配和节点配置的问题。引用[4]提到平台通常提供最新GPU型号，所以在选择实例类型时需要注意。接下来，我需要构建搭建GPU集群的步骤。通常搭建集群需要以下几个步骤：选择云平台、创建GPU实例、配置网络和存储、安装必要的驱动和软件、配置集群管理工具、测试集群性能。需要确保每个步骤都结合用户的引用内容，特别是阿里云的相关操作。在具体步骤中，选择云平台时，可以推荐阿里云，如引用[1]和[2]提到的。创建实例时，需要指导用户选择正确的GPU实例类型，可能引用[4]提到的技术前沿，确保使用最新GPU型号。配置网络时，引用[3]提到资源是共享的，所以需要设置VPC和安全组来保证节点间的通信。安装驱动部分，可能需要指导用户安装NVIDIA驱动和CUDA工具包，这是深度学习的基础。然后，集群管理工具如Kubernetes或Slurm，需要安装和配置，这部分可能需要结合容器技术，比如Docker，如引用[3]提到的节点池可能涉及Kubernetes。最后，测试集群性能，运行一个分布式任务，比如TensorFlow或PyTorch的示例，确保集群正常工作。同时，需要注意事项，比如成本控制、监控和弹性伸缩，以及数据安全，这些可以结合引用[2]中提到的因素，如成本、可用性、安全性等。相关问题部分，需要生成与搭建GPU集群相关的问题，比如如何选择实例类型、如何配置网络、如何管理集群等，确保覆盖用户可能感兴趣的后续问题。现在需要检查是否有遗漏的步骤，或者是否有引用内容没有正确应用。例如，在创建GPU实例时，是否需要提到按需付费模式？引用[1]和[2]提到租用平台的成本因素，所以在步骤中可能需要提到按需实例以控制成本。另外，在配置网络时，引用[3]提到节点池的使用，可能需要提到使用Kubernetes的节点池来管理GPU节点，这在步骤4中的集群管理工具部分可以详细说明。总结起来，回答的结构应该是分步骤，结合引用内容，确保每个步骤都有相应的引用支持，并且语言清晰，符合用户要求的格式，比如使用中文，数学公式正确等。同时，生成的相关问题需要与主题紧密相关，帮助用户进一步探索。</think>### 如何在云平台租用的GPU上临时搭建GPU集群临时搭建GPU集群需要结合云平台的弹性资源管理能力，以下是具体步骤和注意事项： --- #### **步骤1：选择云平台并创建GPU实例** - **推荐平台**：优先选择支持GPU实例的云服务商（如阿里云、AWS、腾讯云）[^1][^2]。 - **实例配置**： - 根据需求选择GPU型号（如NVIDIA A100、V100）和数量，确保算力满足任务需求[^4]。 - 选择按需付费模式以控制成本，按需启动和释放实例[^2]。 - **操作系统**：建议使用Ubuntu或CentOS镜像，适配大多数深度学习框架。 --- #### **步骤2：配置网络与存储** - **虚拟私有云（VPC）**：为所有GPU实例分配同一VPC，确保节点间内网互通[^3]。 - **安全组规则**：开放SSH端口（22）和集群通信端口（如NCCL默认端口）。 - **共享存储**：挂载NAS或对象存储（如阿里云OSS），便于多节点访问同一数据集[^2]。 --- #### **步骤3：安装GPU驱动与软件栈** 1. **安装NVIDIA驱动**： ```bash sudo apt-get install -y nvidia-driver-535 ``` 2. **CUDA工具包**： ```bash wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run sudo sh cuda_12.2.2_535.104.05_linux.run ``` 3. **深度学习框架**： ```bash pip install tensorflow-gpu torch torchvision ``` --- #### **步骤4：部署集群管理工具** - **Kubernetes集群**（适合长期任务）： - 使用`kubectl`创建GPU节点池，并启用NVIDIA设备插件。 - 示例部署文件： ```yaml apiVersion: v1 kind: Pod metadata: name: gpu-pod spec: containers: - name: cuda-container image: nvidia/cuda:12.2.0-base resources: limits: nvidia.com/gpu: 1 ``` - **Slurm调度器**（适合短期HPC任务）： - 配置`slurm.conf`，指定GPU节点列表和任务队列。 --- #### **步骤5：测试集群性能** - **分布式训练示例**（PyTorch）： ```python import torch import torch.distributed as dist dist.init_process_group(backend='nccl') torch.cuda.set_device(int(os.environ['LOCAL_RANK'])) # 定义模型与数据并行逻辑 ``` - **验证通信带宽**： ```bash nccl-tests/build/all_reduce_perf -b 8G -e 16G ``` --- #### **注意事项** 1. **成本控制**：使用竞价实例或定时释放策略降低费用[^2]。 2. **监控与弹性伸缩**：集成云平台监控工具（如阿里云CloudMonitor），动态调整节点数量[^1]。 3. **数据安全**：加密存储卷，限制SSH密钥访问权限[^2]。 ---