请搭配 NVIDIA Tao Toolkit环境配置食用
该文章为 Tao 安装中可能出现的问题进行解答,如果存在本文章中没出现的问题,欢迎提问,由我复现后更新文章。
由于大部分云服务器厂商不能支持 docker,因此我使用的环境为2023年5月27日在 featurize 平台租的 3080 旧版环境进行实验。
Nvidia Driver 版本不同
当前服务器提供的 driver 版本是 510.85.02, 不满足驱动大于520 要求
同时,如果尝试直接 apt-get
安装覆盖:
# 先更新ubuntu 源, 如果这一步出现网络错误,请百度:ubuntu 换源
sudo apt-get update
# 根据要求更新源
sudo apt-get install software-properties-common
sudo add-apt-repository ppa:graphics-drivers/ppa
# 安装驱动
sudo apt-get install nvidia-driver-530
出现依赖冲突:
解决方案其实很简单,手动安装冲突依赖:
# 安装第一个驱动
sudo apt-get install libnvidia-gl-530
# 提示需要安装另外一个
sudo apt-get install libnvidia-common-530
# 安装完成 libnvidia-common-530 时,可以发现很多依赖被卸载了,因此可以直接尝试安装 530 驱动
sudo apt-get install nvidia-driver-530
# 安装完成后重启
# 不要退还实例不要通过服务器面板重启实例,否则可能环境重置
sudo reboot
执行后安装成功:
Docker 安装
无问题,略了
Nvidia-Docker 安装
无问题,略。
NGC登录失败
如果前面没问题,这里登录失败基本都是由于网络原因造成的。
在NGC页面上上申请密钥成功后,登录:
红框内文件表示登录成功后的保存文件,注意红框内的路径。使用 sudo 和不使用 sudo 可能会出现在两个位置。
如果出现网络错误,可以考虑换个服务器或者使用其他已经配置好环境的朋友那里借用网络进行登录,然后保存该文件。
但是应该注意可能产生的账号安全性问题。
Tao Toolkit 安装
可能报错:
报错原因是因为不存在登录成功的配置文件。
# 关键信息
/home/featurize/.docker/config.json: 没有那个目录或文件
如果在上一步中已经登陆成功,请注意路径是否正确。
如果路径正确,请使用 chmod
修改该文件夹的读写权限。