万字长文详解：GPU服务器Ubuntu系统制作与安装、磁盘分区、驱动配置、SSH、向日葵远控、用户管理、Docker管理、CUDA安装、Anaconda安装、深度学习模型测试

七层孤独之后

已于 2024-07-04 10:40:22 修改

阅读量1k

点赞数 5

文章标签：服务器人工智能

于 2024-05-28 18:27:48 首次发布

本文链接：https://blog.csdn.net/qq_44811719/article/details/139274657

版权

不要轻易Update or Upgrate，导致NVIDIA驱动不兼容 !!!

不要安装最新的版本，版本兼容问题应该看发行时间：比如NVIDIA Driver的的发行时间应晚于Ubuntu系统发行时间

安装不成功，大概率是版本不兼容问题、硬件问题、产品太新使用方案不同以往（如A100显卡）

1、Ubuntu 22.04 镜像文件下载、制作启动盘

0. 慎重安装Ubuntu 20.04，其在服务器端经常有bug，安装完之后会黑屏！

1. 官网下载镜像文件：https://releases.ubuntu.com/jammy/ubuntu-22.04.4-desktop-amd64.iso

2. 推荐 ventoy 软件写入镜像！

3. 或者用 UltraISO 制作U盘安装Ubuntu(不推荐):
   打开iso -> 启动 -> 写入硬盘映像 -> 写入方式: RAW

2、服务器安装系统

1. 系统安装时不要插网线联网，防止在安装过程中自动更新；安装完系统后再插网线联网！！！

2. F11/F10选择U盘启动，按照步骤安装

3. 建议磁盘分区：boot 4G, swap 60G, efi 1G, 剩下给/，创建用户数据存储文件夹(e.g., /user_data)并分区挂载

4. 对于覆盖之前的系统，直接选择 Erase and reinstall，但会自动磁盘分区，可以安装完系统后再挂载

3、开启SSH、安装NVIDIA驱动、安装向日葵远程连接

1. 开启ssh: sudo apt-get install openssh-server
			sudo systemctl start ssh
			sudo systemctl enable ssh
			sudo systemctl status ssh
			sudo systemctl restart ssh (可选)
			申请静态IP，便于远程连接

2. 安装nvidia-driver(安装dkms，否则重启会自动升级内核，导致驱动不匹配)：
   方式一：官网下载NVIDIA驱动: https://www.nvidia.com/download/driverResults.aspx/221949/en-us
   		   (安装g++等、禁用Nouveau等，可参考博客1)
   		   安装dkms，这个可以自动配置内核和驱动匹配
   		   sudo bash NVIDIA-Linux-x86_64-535.161.08.run
   方式二：Ubuntu系统推荐安装(慎用，可能导致驱动和网络全崩)：首先查看合适的驱动程序：ubuntu-drivers devices (找到合适的版本，建议参考一下NVIDIA官网驱动版本，这种方式经常会安装显卡不支持的小版本)
   		   sudo apt install nvidia-driver-xxx (e.g., xxx为535.161.08)
   		   禁用Nouveau驱动程序防止冲突：
   		   	   sudo bash -c "echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf"
			   sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf"
		   更新initramfs ：
		   	   sudo update-initramfs -u
		   重启系统，生效，nvidia-smi
注：(1) 如果不小心update或upgrade导致驱动损坏，建议先卸载原驱动、重启后再重新安装驱动；或重装系统
	卸载驱动命令：sudo apt-get remove --purge nvidia*
	(2) gpu-burn 做gpu算力、压力测试
	(3) 正确的安装需要：内核和驱动版本配对上
	(4) .run安装时，如果图形界面安装报错，可能命令行方式不报错
	(5) A100系列以上显卡，不使用多实例GPU模式请禁用MIG，否则不加以配置，pytorch无法正常调用GPU

3. 安装向日葵：
   官网下载ubuntu的 .deb 文件
   sudo dpkg -i xxx.deb
   设置开机自启动、验证码永不更新

博客1

4、硬盘挂载到用户文件夹

0. 如果想把多个硬盘挂载到同一个目录(e.g., /home)，在装系统分区时，先把一个磁盘挂载到/home(一般系统会自动分配)，
   安装完成后再把其他硬盘挂载到这个目录(可以做逻辑卷)

1. 一个硬盘挂载到一个文件夹:
  创建文件夹： sudo mkdir -p /user_folder
  格式化硬盘分区(可选)：sudo mkfs.ext4 /dev/sdb1
  先卸载已有的挂载：sudo umount /old_folder
  挂载到新文件夹：sudo mount /dev/sdb1 /user_folder
  配置开机自动挂载：获取UUID：sudo blkid /dev/sdb1
  				   sudo vim /etc/fstab
  				   添加一下内容到末尾：UUID=<UUID> /mnt/new_data  ext4  defaults  0  2

2. 两块硬盘挂载到一个文件夹(使用 LVM（逻辑卷管理))：
  sudo apt install lvm2
  初始化为物理卷：sudo pvcreate /dev/sda /dev/sdb
  将物理卷合并到一个卷组中，假设卷组名为 vg0：sudo vgcreate vg0 /dev/sda /dev/sdb
  创建逻辑卷：sudo lvcreate -l 100%FREE -n lv0 vg0
  格式化逻辑卷：sudo mkfs.ext4 /dev/vg0

最低0.47元/天解锁文章