Google竟想将 Docker 踢出 Kubernetes 群聊，那还能欢快地跑 GPU吗？

2401_84925152

于 2024-05-16 05:30:14 发布

阅读量961

点赞数 24

文章标签： go 学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84925152/article/details/138937565

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

$ apt install nvidia-container-runtime -y

配置 Containerd 使用 Nvidia container runtime

=========================================

如果 /etc/containerd 目录不存在，就先创建它：

$ mkdir /etc/containerd

生成默认配置：

$ containerd config default > /etc/containerd/config.toml

Kubernetes 使用设备插件（Device Plugins）[3] 来允许 Pod 访问类似 GPU 这类特殊的硬件功能特性，但前提是默认的 OCI runtime 必须改成 nvidia-container-runtime，需要修改的内容如下：

/etc/containerd/config.toml

…

[plugins.“io.containerd.grpc.v1.cri”.containerd]

snapshotter = “overlayfs”

default_runtime_name = “runc”

no_pivot = false

…

[plugins.“io.containerd.grpc.v1.cri”.containerd.runtimes]

[plugins.“io.containerd.grpc.v1.cri”.containerd.runtimes.runc]

runtime_type = “io.containerd.runtime.v1.linux” # 将此处 runtime_type 的值改成 io.containerd.runtime.v1.linux

…

[plugins.“io.containerd.runtime.v1.linux”]

shim = “containerd-shim”

runtime = “nvidia-container-runtime” # 将此处 runtime 的值改成 nvidia-container-runtime

…

重启 containerd 服务：

$ systemctl restart containerd

4. 部署 NVIDIA GPU 设备插件

======================

一条命令解决战斗：

$ kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.7.1/nvidia-device-plugin.yml

查看日志：

$ kubectl -n kube-system logs nvidia-device-plugin-daemonset-xxx

2020/12/04 06:30:28 Loading NVML

2020/12/04 06:30:28 Starting FS watcher.

2020/12/04 06:30:28 Starting OS watcher.

2020/12/04 06:30:28 Retreiving plugins.

2020/12/04 06:30:28 Starting GRPC server for ‘nvidia.com/gpu’

2020/12/04 06:30:28 Starting to serve ‘nvidia.com/gpu’ on /var/lib/kubelet/device-plugins/nvidia-gpu.sock

2020/12/04 06:30:28 Registered device plugin for ‘nvidia.com/gpu’ with Kubelet

可以看到设备插件部署成功了。在 Node 上面可以看到设备插件目录下的 socket：

$ ll /var/lib/kubelet/device-plugins/

total 12

drwxr-xr-x 2 root root 4096 Dec 4 01:30 ./

drwxr-xr-x 8 root root 4096 Dec 3 05:05 …/

-rw-r–r-- 1 root root 0 Dec 4 01:11 DEPRECATION

-rw------- 1 root root 3804 Dec 4 01:30 kubelet_internal_checkpoint

srwxr-xr-x 1 root root 0 Dec 4 01:11 kubelet.sock=

srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-kvm.sock=

srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-tun.sock=

srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-vhost-net.sock=

srwxr-xr-x 1 root root 0 Dec 4 01:30 nvidia-gpu.sock=

5. 测试 GPU

==========

首先测试本地命令行工具 ctr，这个应该没啥问题：

$ ctr images pull docker.io/nvidia/cuda:9.0-base

$ ctr run --rm -t --gpus 0 docker.io/nvidia/cuda:9.0-base nvidia-smi nvidia-smi

Fri Dec 4 07:01:38 2020

±----------------------------------------------------------------------------+

| NVIDIA-SMI 440.95.01 Driver Version: 440.95.01 CUDA Version: 10.2 |

|-------------------------------±---------------------±---------------------+

| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |

| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |

|=++==============|

| 0 GeForce RTX 208… Off | 00000000:A1:00.0 Off | N/A |

| 30% 33C P8 9W / 250W | 0MiB / 11019MiB | 0% Default |

±------------------------------±---------------------±---------------------+

±----------------------------------------------------------------------------+

| Processes: GPU Memory |

| GPU PID Type Process name Usage |

|=============================================================================|

| No running processes found |

±----------------------------------------------------------------------------+

最后进入终极测试：在 Pod 中测试 GPU 可用性。先创建部署清单：

gpu-pod.yaml

apiVersion: v1

kind: Pod

metadata:

name: cuda-vector-add

spec:

restartPolicy: OnFailure

containers:

name: cuda-vector-add

image: “k8s.gcr.io/cuda-vector-add:v0.1”

resources:

limits:

nvidia.com/gpu: 1

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

0J-1715808592835)]
[外链图片转存中…(img-Adfp3lct-1715808592836)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

24
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Google竟想将 Docker 踢出 Kubernetes 群聊，那还能欢快地跑 GPU吗？

runtime_type = “io.containerd.runtime.v1.linux” # 将此处 runtime_type 的值改成 io.containerd.runtime.v1.linux。runtime = “nvidia-container-runtime” # 将此处 runtime 的值改成 nvidia-container-runtime。配置 Containerd 使用 Nvidia container runtime。最后进入终极测试：在 Pod 中测试 GPU 可用性。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。