网上有很多Nvidia GPU的安装教程,很多问题都是由软件版本和内核驱动等不搭配造成的。因此,在这里记录和分享这个过程就显得无比重要了。实验室设备比较好,有tesla GPU,从此再也不担深度学习了。(主要是nvidia driver和cuda driver要匹配好)
首先,检查和确认机器上是否有NVIDIA设备
root@satellive01:/usr/local# sudo update-pciids
root@satellive01:/usr/local# lspci -nn | grep '[03'
65:00.0 3D controller [0302]: NVIDIA Corporation GP100GL [Tesla P100 PCIe 16GB] [10de:15f8] (rev ff)
然后,移除机器上所有nvidia驱动
dpkg -l | grep -i nvidia (直到所有驱动已经删除)
sudo apt-get remove --purge '^nvidia-.*'
apt remove --purge libcuda*
apt remove --purge libnvidia*
apt autoremove
由于要下载很多东西,这里修改和更新/etc/apt/source.list源文件
deb Index of /ubuntu/ bionic main restricted universe multiverse
deb Index of /ubuntu/ bionic-security main restricted universe multiverse
deb Index of /ubuntu/ bionic-updates main restricted universe mul