深度学习GPU服务器环境配置

组里面分配了台gpu服务器,让我负责管理,需要先配置一些深度学习环境,记录一下。
一些linux服务器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910

1.安装GPU驱动

1.1查看linux系统信息和配置信息。

首先需要了解linux系统信息
通过cat /proc/version查看包含gcc的版本信息

[root@localhost ~]# cat /proc/version 
Linux version 3.10.0-1062.el7.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) ) #1 SM

通过hostnamectl命令查看系统信息,这个命令是centos7的命令

[root@localhost ~]# hostnamectl
   Static hostname: localhost.localdomain
         Icon name: computer-vm
           Chassis: vm
        Machine ID: d488330e5e20487f8238984c81cb43a1
           Boot ID: a5ddccbbebf547d588a76082b5832973
    Virtualization: microsoft
  Operating System: CentOS Linux 7 (Core)
       CPE OS Name: cpe:/o:centos:centos:7
            Kernel: Linux 3.10.0-1062.el7.x86_64
      Architecture: x86-64

看出操作系统的版本,linux内核版本。

1.2查看硬件配置

通过lspci命令显示所有硬件信息,可以看到所有不管装没装驱动的设备,因为根据pci规范,只要该设备在pci总线上挂着,就可以读到一些信息。
信息太多,可以通过grep过滤VGA信息或者直接查nvidia也行。

[root@localhost ~]# lspci|grep -i vga
00:02.0 VGA compatible controller: Cirrus Logic GD 5446
00:0d.0 VGA compatible controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

可以看到,上面有一张T4(另,如果没有直观的显示显卡信息,[]中的内容,可通过http://pci-ids.ucw.cz/网站查数字代码)。
指导了设备,就可以去官网上下载驱动了(组里面其他同学直接给我发了份,就没去下载)。

1.3为了确保软件环境统一且无误

首先要确保gcc,g++和kernel-devel和kernel-headers安装,前两个不用解释,kernel-devel是用作匹配不同操作系统版本的接口(注意和操作系统的版本要对应好,百度搜索安装kernel-devel和kernel-headers很多博客写的很清楚)。
通过 uname -r 查看操作系统内核,通过yum info kernel-devel kernel-headers查看版本信息。
可以通过安装与操作系统内核对应的kernelyum install "kernel-devel-uname-r == $(uname-r),或者升级yum distro-sync操作系统内核与kernel匹配。
一般来说,安装对应的软件包或者升级内核都可以,我推荐升级内核。
贴一个参考:https://www.cnblogs.com/liuke-note/p/13712202.html
大概思路就是通过https://pkgs.org/搜索centos对应版本的headers和devel,比如我的是3.10.0-1602.(后来我升级到了1160)
然后通过rpm离线安装。可以在usr/src/kernels目录下看安装的包
如果已经提前尝试安装nvidia驱动,可通过usr/bin/nvidia-uninstall中卸载

1.4注意

显卡驱动安装之前,建议先卸载linux系统自带的显卡驱动nouveau,这是一个针对nvidia显卡开发的第三方开源的3d驱动,而且没有得到官方的支持,所以可能存在冲突,因此建议先禁用。
通过lsmod|grep -i nouveau查看是否被加载,如果查出来内容说明被加载,可以通过下面的方式禁用centos系统的nouveau驱动

1. 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本:
blacklist nouveau
options nouveau modeset=0

2. 重新生成initramfs
$ sudo dracut --force

之后reboot重启服务器再查看一下nouveau是否被加载

执行run脚本安装nvidia驱动
./NVIDIA-Linux-x86_64-440.107-grid.run执行完就行了,这个脚本也会自动把环境变量修改上
可以试一下nvidia-smi命令来查看GPU信息了。

2. 安装cuda相关工具

老生常谈了,cuda,cudnn
去官网下载对应的cuda toolkit: https://developer.nvidia.com/cuda-toolkit-archive
去官网下载对应的cudnn:https://developer.nvidia.com/rdp/cudnn-archive
安装即可,给个参考博客:https://blog.csdn.net/qq_51570094/article/details/123902419,一个比较清晰的流程。

3. 安装pytorch-gpu版

这个也是老生常谈了,anaconda3,torch,torchvision,torchaudio。
通过conda建完虚拟环境之后,就直接可以在对应的虚拟环境下安装torch了。
先去torch的官网找符合的版本:https://pytorch.org/get-started/previous-versions/
可选离线安装,通过镜像站:https://download.pytorch.org/whl/torch_stable.html先下载下来三个whl包,然后分别pip install 包名-i https://pypi.tuna.tsinghua.edu.cn/simple 来快速安装。

参考资料

试了很多方法才成功安装GPU驱动的:https://blog.csdn.net/HaixWang/article/details/90408538
华为服务器的使用手册:https://support.huawei.com/enterprise/zh/doc/EDOC1100164073/13b4e55d
一个比较详细和清晰的GPU驱动安装流程:https://blog.csdn.net/qq_51570094/article/details/123900837

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
为了配置一个深度学习环境,你需要一台具备足够计算能力和存储空间的服务器。以下是一些常用的服务器配置建议: 1. GPU:选择一块高性能的图形处理单元(GPU)是至关重要的,因为深度学习任务对计算资源的需求很高。目前,NVIDIA的GPU深度学习领域最常用的选择,其中包括Tesla、Quadro和GeForce系列。根据你的需求和预算,选择一块适合的GPU。 2. CPU:尽管GPU深度学习中扮演着重要的角色,但CPU也是必不可少的。选择一颗高性能的多核CPU,可以提供额外的计算能力来支持模型训练和推理。 3. 内存:深度学习任务通常需要大量的内存来存储模型参数和中间结果。推荐选择至少16GB的内存,如果你处理更大规模的任务,可以考虑32GB或更多。 4. 存储:选择一个快速的存储解决方案是很重要的,因为数据读取和写入对于深度学习任务来说是瓶颈之一。固态硬盘(SSD)通常比传统的机械硬盘(HDD)更快,所以建议选择一个大容量的SSD来存储数据和模型。 5. 操作系统:选择一个适合你的需求的操作系统,例如Ubuntu、CentOS等。这些操作系统通常提供了广泛的深度学习软件支持,并且有许多社区和教程可以参考。 6. 深度学习软件:安装和配置深度学习框架(如TensorFlow、PyTorch)和相关的依赖项是必须的。根据你的需求和技术偏好,选择适合你的深度学习软件。 此外,还有一些其他因素需要考虑,如网络连接、电源和散热等。根据你的预算和需求,可以选择购买一台现成的服务器或者自己组装一台。如果你不熟悉硬件选购和组装,可以咨询专业人士或购买预配置的深度学习服务器

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值