不要轻易Update or Upgrate,导致NVIDIA驱动不兼容 !!!
不要安装最新的版本,版本兼容问题应该看发行时间:比如NVIDIA Driver的的发行时间应晚于Ubuntu系统发行时间
安装不成功,大概率是版本不兼容问题、硬件问题、产品太新使用方案不同以往(如A100显卡)
1、Ubuntu 22.04 镜像文件下载、制作启动盘
0. 慎重安装Ubuntu 20.04,其在服务器端经常有bug,安装完之后会黑屏!
1. 官网下载镜像文件:https://releases.ubuntu.com/jammy/ubuntu-22.04.4-desktop-amd64.iso
2. 推荐 ventoy 软件写入镜像!
3. 或者用 UltraISO 制作U盘安装Ubuntu(不推荐):
打开iso -> 启动 -> 写入硬盘映像 -> 写入方式: RAW
2、服务器安装系统
1. 系统安装时不要插网线联网,防止在安装过程中自动更新;安装完系统后再插网线联网!!!
2. F11/F10选择U盘启动,按照步骤安装
3. 建议磁盘分区:boot 4G, swap 60G, efi 1G, 剩下给/,创建用户数据存储文件夹(e.g., /user_data)并分区挂载
4. 对于覆盖之前的系统,直接选择 Erase and reinstall,但会自动磁盘分区,可以安装完系统后再挂载
3、开启SSH、安装NVIDIA驱动、安装向日葵远程连接
1. 开启ssh: sudo apt-get install openssh-server
sudo systemctl start ssh
sudo systemctl enable ssh
sudo systemctl status ssh
sudo systemctl restart ssh (可选)
申请静态IP,便于远程连接
2. 安装nvidia-driver(安装dkms,否则重启会自动升级内核,导致驱动不匹配):
方式一:官网下载NVIDIA驱动: https://www.nvidia.com/download/driverResults.aspx/221949/en-us
(安装g++等、禁用Nouveau等,可参考博客1)
安装dkms,这个可以自动配置内核和驱动匹配
sudo bash NVIDIA-Linux-x86_64-535.161.08.run
方式二:Ubuntu系统推荐安装(慎用,可能导致驱动和网络全崩):首先查看合适的驱动程序:ubuntu-drivers devices (找到合适的版本,建议参考一下NVIDIA官网驱动版本,这种方式经常会安装显卡不支持的小版本)
sudo apt install nvidia-driver-xxx (e.g., xxx为535.161.08)
禁用Nouveau驱动程序防止冲突:
sudo bash -c "echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf"
sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf"
更新initramfs :
sudo update-initramfs -u
重启系统,生效,nvidia-smi
注:(1) 如果不小心update或upgrade导致驱动损坏,建议先卸载原驱动、重启后再重新安装驱动;或重装系统
卸载驱动命令:sudo apt-get remove --purge nvidia*
(2) gpu-burn 做gpu算力、压力测试
(3) 正确的安装需要:内核和驱动版本配对上
(4) .run安装时,如果图形界面安装报错,可能命令行方式不报错
(5) A100系列以上显卡,不使用多实例GPU模式请禁用MIG,否则不加以配置,pytorch无法正常调用GPU
3. 安装向日葵:
官网下载ubuntu的 .deb 文件
sudo dpkg -i xxx.deb
设置开机自启动、验证码永不更新
博客1
4、硬盘挂载到用户文件夹
0. 如果想把多个硬盘挂载到同一个目录(e.g., /home),在装系统分区时,先把一个磁盘挂载到/home(一般系统会自动分配),
安装完成后再把其他硬盘挂载到这个目录(可以做逻辑卷)
1. 一个硬盘挂载到一个文件夹:
创建文件夹: sudo mkdir -p /user_folder
格式化硬盘分区(可选):sudo mkfs.ext4 /dev/sdb1
先卸载已有的挂载:sudo umount /old_folder
挂载到新文件夹:sudo mount /dev/sdb1 /user_folder
配置开机自动挂载:获取UUID:sudo blkid /dev/sdb1
sudo vim /etc/fstab
添加一下内容到末尾:UUID=<UUID> /mnt/new_data ext4 defaults 0 2
2. 两块硬盘挂载到一个文件夹(使用 LVM(逻辑卷管理)):
sudo apt install lvm2
初始化为物理卷:sudo pvcreate /dev/sda /dev/sdb
将物理卷合并到一个卷组中,假设卷组名为 vg0:sudo vgcreate vg0 /dev/sda /dev/sdb
创建逻辑卷:sudo lvcreate -l 100%FREE -n lv0 vg0
格式化逻辑卷:sudo mkfs.ext4 /dev/vg0