硬件及系统
- 硬件,一台64C256G2000G(64核心256G内存2T存储4×V100机器)
- 挂载硬盘,
- 格式化分区(mkfs.ext4),想要挂载的硬盘名为/dev/vdb,则执行mkfs.ext4 /dev/vdb
- 加载分区
a、创建分区挂接目录,例:
mkdir xx
b、编辑 /etc/fstab 配置文件,将分区信息写进去。
/dev/vdb /xx ext4 defaults 0 0
c、加载新建分区:
mount -a
- 修改文件权限,所有用户可用
chmod -R 777 /xx
- 个人账户xx
- 将xx加入到sudo组:usermod -a -G sudo xx
docker及nvidia-docker安装(离线)
docker安装
- 查看当前系统版本,命令 lsb_release -a
Distributor ID: Ubuntu
Description: Ubuntu 18.04.1 LTS
Release: 18.04
Codename: bionic
- 在https://download.docker.com/linux/static/stable/x86_64/下载对应的离线包
- containerd.io_1.4.3-1_amd64.deb
- docker-ce_19.03.14_3-0_ubuntu-xenial_amd64.deb
- docker-ce-cli_19.03.14_3-0_ubuntu-xenial_amd64.deb
- 执行
dpkg -i containerd.io_1.4.3-1_amd64.deb docker-ce_19.03.14_3-0_ubuntu-xenial_amd64.deb docker-ce-cli_19.03.14_3-0_ubuntu-xenial_amd64.deb
若遇到缺少依赖包,使用apt-get -f install 命令修复后再安装上述包
- 安装过程,参考https://blog.csdn.net/u012052268/article/details/103264596
- 改为不用sudo即可使用docker,将docker加入到docker用户组
-
sudo groupadd docker sudo gpasswd -a ${USER} docker chgrp docker /var/run/docker.sock sudo service docker restart
- 然后执行下面命令
newgrp - docker;
newgrp - `groups ${USER} | cut -d' ' -f1`; # TODO:必须逐行执行,不知道为什么,批量执行时第二条不会生效
# 或者,注销并重新登录
pkill X
nvidia-docker安装
- 在一条有网的机器上,运行以下命令:
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
$ sudo apt-get update
- 执行以下5个命令,下载5个包到当前目录,拷贝这些包到离线服务器上:
apt download libnvidia-container1
apt download libnvidia-container-tools
apt download nvidia-container-toolkit
apt download nvidia-container-runtime
apt download nvidia-docker2
- 离线服务器上依次运行以下命令,顺序不能颠倒:
dpkg -i libnvidia-container1
dpkg -i libnvidia-container-tools
dpkg -i nvidia-container-toolkit
dpkg -i nvidia-container-runtime
dpkg -i nvidia-docker2