从零搭建可分配节点GPU资源至容器的Kubernetes集群（Nvidia版本）

最新推荐文章于 2024-07-30 18:36:57 发布

T型人小付

最新推荐文章于 2024-07-30 18:36:57 发布

阅读量3.9k

点赞数 4

分类专栏： Devops - Kubernetes

本文链接：https://blog.csdn.net/Victor2code/article/details/106226622

版权

最近和AI团队一起做项目，需要将机器学习的项目部署进k8s。因为要使用节点的GPU资源，普通部署的k8s集群不能用了，因为docker只能对CPU和内存而不能对GPU资源进行共享和隔离。这一节我们就一起来看看怎么部署一个能分配GPU资源的k8s集群。

我是T型人小付，一位坚持终身学习的互联网从业者。喜欢我的博客欢迎在csdn上关注我，如果有问题欢迎在底下的评论区交流，谢谢。

文章目录

操作环境

master(CPU) - ubuntu 18.04
gpu-node(GPU) - ubuntu 18.04

利用kubeadm安装

基本上跟着《【Kubernetes 003】Centos7通过Kubeadm安装Kubernetes1.15详解（附一键安装脚本）》进行安装即可成功创建集群。Centos和Ubuntu的命令稍微有些不同，但是大同小异，不影响整体步骤。

但是如果想在GPU节点的pod内使用GPU资源，还得对GPU节点做一些特殊的设定。所以请在将GPU节点加入master之前，对GPU节点完成下述操作。

GPU节点安装准备

查看Linux的GPU信息

先更新本地数据库，然后获取GPU的详细信息

sudo update-pciids
sudo lspci | grep VGA -A 10

如果lspci命令没有找到，先通过下面命令安装

sudo yum install pciutils

我这边机器信息如下

root@gpu-node:~# lspci -v | grep VGA -A 10
01:00.0 VGA compatible controller: NVIDIA Corporation TU104 [GeForce RTX 2070 SUPER] (rev a1) (prog-if 00 [VGA controller])
	Subsystem: Micro-Star International Co., Ltd. [MSI] Device c729
	Flags: bus master, fast devsel, latency 0, IRQ 130
	Memory at a3000000 (32-bit, non-prefetchable) [size=16M]
	Memory at 90000000 (64-bit, prefetchable) [size=256M]
	Memory at a0000000 (64-bit, prefetchable) [size=32M]
	I/O ports at 3000 [size=128]
	[virtual] Expansion ROM at 000c0000 [disabled] [size=128K]
	Capabilities: [60] Power Management version 3
	Capabilities: [68] MSI: Enable+ Count=1/1 Maskable- 64bit+
	Capabilities: [78] Express Legacy Endpoint, MSI 00

如果跟我的机器一样是nvidia的显卡，根据显示的型号去查询支持的最新driver，安装完driver就会有管理工具nvidia-smi

nvidia显卡持续查看使用情况，每秒更新一次

watch -n 1 nvidia-smi

我这边的GPU和driver信息如下

root@gpu-node:~# nvidia-smi
Tue May 19 10:58:25 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 435.21       Driver Version: 435.21       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+