例如 一台新的 服务器部署环境
1.环境服务器部署
第一步:查看显卡的驱动是否装好了,可以用nvidia-smi,正常显示表示已经安装
上面版本没有问题,但是下面版本驱动本本比较低,不支持11.2cuda安装,要更新驱动
docker, nvidia-docker 安装之前先确认如下三个
paddle 2.3 需要安装的cuda 11.2 cudnn8.1
上面驱动版,不对太低需要更新460以上才行
版本确认顺序:CUDA版本 --> CuDNN版本 --> GPU驱动版本
安装顺序:GPU驱动版本 --> CUDA版本 --> CuDNN版本cuda 11.2 怎么安装,与驱动,cuda 版本号要一直,
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cuda-developer-tools-new-features
想安装 cuda11.2,上面的驱动版本不支持,需要更新
> 如果nvdia-smi 不显示说明没有安装驱动
>
> 然后安装新的驱动
> 卸载 sudo apt-get --purge remove nvidia*
> sudo apt autoremove
> 查看可用的显卡型号
> sudo ubuntu-drivers devices
> sudo apt-get install nvidia-driver-515
第二步:装docker,nvidia docker
- 这个步骤会安装好nvidia-smi的显示问题,可以从这里直接开始
- 具体操作步骤官网有疑问,看这个中文解释安装过程 再对应官网安装命令即可
- https://blog.csdn.net/jndingxin/article/details/125058470
- 官网nvidia docker安装步骤
- https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker
bash 安装过程中每个人电脑情况可能不一样,比较干净的环境可能没有什么问题,
直接按照流程走就行,一台有配置过的环境服务器,没有docker 进行安装可能会出现问题例如:安装docker 命令后
curl https://get.docker.com | sh && sudo systemctl --now enable docker2、 报错
- sh -c DEBIAN_FRONTEND=noninteractive apt-get install -y -qq apt-transport-https ca-certificates curl >/dev/null
E: 软件包 containerd.io 需要重新安装,但是我无法找到相应的安装文件。
怎么解决
sudo dpkg --remove --force-remove-reinstreq Sougou Pinyin
3、继续报错
dpkg: 依赖问题阻止了卸载 containerd.io 的操作:
docker-ce 依赖于 containerd.io (>= 1.2.2-3).
怎么解决
有人提示一下,先安装containerd.io,接着是docker-ce-cli,最后docker-ce
1、首先 查看下是ubutn还是centos 系统,以下是ubuntu
cat /etc/issue
2、官网安装dockerce ubuntu的方式,可以成功了(然后继续安装 nvidia docker)
docker --version 显示成功
3、docker 安装好,继续安装 nvidia docker,继续报错
这里核查cuda不是11.2.是11.1所以要重新安装驱动
刚才安装的docker 大概不对,删除再安装
无法卸载docker-ce (并且无法安装任何新程序)
Ubuntu中卸载docker
ubuntu如何卸载dockerdocker-ce docker-engine docker.io containerd runc docker --version 还有版本号,没有删除成功,所以这里根据下面的步骤继续删除 dpkg -l | grep -i docker 查看还有依赖的包, sudo apt-get purge docker sudo apt-get purge --auto-remove docker sudo apt-get purge docker-ce sudo apt-get purge --auto-remove docker-ce 如果提示 删除dpkg: 处理软件包 docker-ce (--remove)时出错: 该软件包现在的 状态极为不妥; 建议您在卸载它之前再重新安装一次 删不掉,先安装再删除 sudo apt-get install docker-ce sudo apt-get purge docker docker.io docker-ce sudo apt autoremove 直到dpkg -l | grep -i docker 命令下面什么包都没有 然后就是 3、再输入以下命令删除docker卸载残留。 dpkg -l | grep docker dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg -P # 删除无用的相关的配置文件 4、再输入以下命令卸载没有删除的docker相关插件。 sudo apt-get autoremove docker-ce-* 5、再输入以下命令删除docker的相关配置。 sudo rm -rf /etc/systemd/system/docker.service.d sudo rm -rf /var/lib/docker 6、最后输入以下命令检查是否卸载成功即可。 docker --version
- 第三步:打包容器环境,新服务器再新建容器
- 192.167.1.255 服务器上打包容器 paddle_docker成一个镜像 paddle2.2.2_pro_road_video:v1,再部署到新服务器中,
命令和过程如下参考
容器打包成镜像,重新部署到新的服务器中- 创建容器命令:
- nvidia-docker run -it --name paddle_docker -p 5001:5001 -v /home/code:/home/code paddle2.2.2:v1 /bin/bash
- 命令解释
- nvidia-docker run -it: 新建容器命令
- 200打包的容器镜像名: paddle2.2.2:v1
- -v:容器外映射路径:容器内映射对应路径 (没有会自动创建)
- -p:是端口设置,暴露接口供外部调用算法模型处理图片视频
- 交互式进入容器环境中: /bin/bash
- 创建容器命令:
- 192.167.1.255 服务器上打包容器 paddle_docker成一个镜像 paddle2.2.2_pro_road_video:v1,再部署到新服务器中,