一、基础环境部署
1.下载docker&&nvidia
nvidia官方包:https://download.nvidia.com/XFree86/Linux-x86_64/
docker-ce官方包:https://download.docker.com/linux/centos/7/x86_64/stable/Packages/
2.环境介绍:
第一套环境:Debian GNU/Linux 8.2、docker18.06.2、Kubernetes v1.16.10-BCS.patch.v1、NVIDIA 440.33.01、4.9.0-0.bpo.7-amd64
第二套环境:Debian GNU/Linux 9.6、docker18.06.3、Kubernetes v1.16.10-BCS.patch.v1、NVIDIA 440.33.01、4.9.0-0.bpo.7-amd64
注:公司在部署环境时,发现Debian8.2支持nvidia-docker2最高版本是2.0.3+docker18.06.2-1,目前暂定为系统版本问题,如有同学知道原因,请留言交流
3.docker部署
注意内核docker支持的最低版本
第一套环境部署docker18.06.2时依赖找不到,解决方案:
deb
[
arch=amd64
]
https
:
//mirrors.ustc.edu.cn/docker-ce/linux/debian jessie stable
(新增源/etc/apt/sources.list
)
apt-get update && apt-get install docker-ce=18.06.2
~
ce
~
3-0
~
debian
4.k8s部署
百度
二、nvidia&&nvidia-docker自动化部署
本人脚本编写环境:ansible+pycharm
1.NVIDIA部署
网上大多的部署流程都是交互模式,仅仅适用于学习阶段。应用到企业级不太理想,企业采购十几台或百台GPU机器,一台台部署是浪费人力物力。而实现nvidia自动化部署的根源在与如何取消文件的交互模式,在外网发现下载.run文件再加参数可以实现静态的安装。
自动脚本第一步测试节点是否合适部署:
检测节点是否含有GPU硬件、是否关闭nouveau、是否已经部署了nvidia、docker
第二步安装依赖环境:
注要是安装headers
第三步安装nvidia
:
第四部测试nvidia安装&&添加内存常驻、内核模块加载
第五部nvidia-docker安装依赖
第六部nvidia-docker安装
第七部nvidia-docker测试