既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
$ apt install nvidia-container-runtime -y
配置 Containerd 使用 Nvidia container runtime
=========================================
如果 /etc/containerd 目录不存在,就先创建它:
$ mkdir /etc/containerd
生成默认配置:
$ containerd config default > /etc/containerd/config.toml
Kubernetes 使用设备插件(Device Plugins)[3] 来允许 Pod 访问类似 GPU 这类特殊的硬件功能特性,但前提是默认的 OCI runtime 必须改成 nvidia-container-runtime,需要修改的内容如下:
/etc/containerd/config.toml
…
[plugins.“io.containerd.grpc.v1.cri”.containerd]
snapshotter = “overlayfs”
default_runtime_name = “runc”
no_pivot = false
…
[plugins.“io.containerd.grpc.v1.cri”.containerd.runtimes]
[plugins.“io.containerd.grpc.v1.cri”.containerd.runtimes.runc]
runtime_type = “io.containerd.runtime.v1.linux” # 将此处 runtime_type 的值改成 io.containerd.runtime.v1.linux
…
[plugins.“io.containerd.runtime.v1.linux”]
shim = “containerd-shim”
runtime = “nvidia-container-runtime” # 将此处 runtime 的值改成 nvidia-container-runtime
…
重启 containerd 服务:
$ systemctl restart containerd
4. 部署 NVIDIA GPU 设备插件
======================
一条命令解决战斗:
$ kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.7.1/nvidia-device-plugin.yml
查看日志:
$ kubectl -n kube-system logs nvidia-device-plugin-daemonset-xxx
2020/12/04 06:30:28 Loading NVML
2020/12/04 06:30:28 Starting FS watcher.
2020/12/04 06:30:28 Starting OS watcher.
2020/12/04 06:30:28 Retreiving plugins.
2020/12/04 06:30:28 Starting GRPC server for ‘nvidia.com/gpu’
2020/12/04 06:30:28 Starting to serve ‘nvidia.com/gpu’ on /var/lib/kubelet/device-plugins/nvidia-gpu.sock
2020/12/04 06:30:28 Registered device plugin for ‘nvidia.com/gpu’ with Kubelet
可以看到设备插件部署成功了。在 Node 上面可以看到设备插件目录下的 socket:
$ ll /var/lib/kubelet/device-plugins/
total 12
drwxr-xr-x 2 root root 4096 Dec 4 01:30 ./
drwxr-xr-x 8 root root 4096 Dec 3 05:05 …/
-rw-r–r-- 1 root root 0 Dec 4 01:11 DEPRECATION
-rw------- 1 root root 3804 Dec 4 01:30 kubelet_internal_checkpoint
srwxr-xr-x 1 root root 0 Dec 4 01:11 kubelet.sock=
srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-kvm.sock=
srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-tun.sock=
srwxr-xr-x 1 root root 0 Dec 4 01:11 kubevirt-vhost-net.sock=
srwxr-xr-x 1 root root 0 Dec 4 01:30 nvidia-gpu.sock=
5. 测试 GPU
==========
首先测试本地命令行工具 ctr,这个应该没啥问题:
$ ctr images pull docker.io/nvidia/cuda:9.0-base
$ ctr run --rm -t --gpus 0 docker.io/nvidia/cuda:9.0-base nvidia-smi nvidia-smi
Fri Dec 4 07:01:38 2020
±----------------------------------------------------------------------------+
| NVIDIA-SMI 440.95.01 Driver Version: 440.95.01 CUDA Version: 10.2 |
|-------------------------------±---------------------±---------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|=++==============|
| 0 GeForce RTX 208… Off | 00000000:A1:00.0 Off | N/A |
| 30% 33C P8 9W / 250W | 0MiB / 11019MiB | 0% Default |
±------------------------------±---------------------±---------------------+
±----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
±----------------------------------------------------------------------------+
最后进入终极测试:在 Pod 中测试 GPU 可用性。先创建部署清单:
gpu-pod.yaml
apiVersion: v1
kind: Pod
metadata:
name: cuda-vector-add
spec:
restartPolicy: OnFailure
containers:
- name: cuda-vector-add
image: “k8s.gcr.io/cuda-vector-add:v0.1”
resources:
limits:
nvidia.com/gpu: 1
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
0J-1715808592835)]
[外链图片转存中…(img-Adfp3lct-1715808592836)]
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!