linux n卡独立显卡深度模型

需求

linux 3张独立n卡1080ti,安装独显驱动,部署cuda+cudnn+conda+pytorch跑水滴模型      

时间:2024年7月2日


ubuntu16到18

问题:Ubuntu16源依赖杂乱过时,导致基础ssh服务报错。apt autoremove不安全,所以安装ubuntu18,已经出了Ubuntu22,但是做服务器版本不是越新越好。查看需要的cuda版本,下文cuda官网里有对应的linux版本号可以安装的cuda版本,例如ubuntu18是官网cuda11支持的最低版本,已官网文档为准。


新旧分区对比

硬盘-容量

(旧)分区-挂载点-空间-已用

操作

(新)分区-挂载点-空间~描述

sdc-223G

sdc1 -/win_boot

格式化

sda-3.7T

sda1-/home2

保留

sda1-/挂载点-3.7t-用户保留数据处

sdb-1.8T

sdb4-/-250G-22G

sdb5-/home

格式化;系统盘;数据盘

sdb1-/-300G-根分区

sdb2-/home-3.5t-存放用户数据

旧分区截图

新分区截图


linux环境命令输出

#lspci | grep -i nvidia
05:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1) (prog-if 00 [VGA controller])
Subsystem: Micro-Star International Co., Ltd. [MSI] GP102 [GeForce GTX 1080 Ti]
--
06:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1) (prog-if 00 [VGA controller])
Subsystem: Micro-Star International Co., Ltd. [MSI] GP102 [GeForce GTX 1080 Ti]
--
0a:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1) (prog-if 00 [VGA controller])
Subsystem: Micro-Star International Co., Ltd. [MSI] GP102 [GeForce GTX 1080 Ti]

深度模型的组件

  • cuda 11.8

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=deb_network

  • nvdia 1080ti闭源驱动,需要与cuda适配,安装前禁用开源n卡驱动。

https://www.nvidia.cn/content/DriverDownloads/confirmation.php?url=/XFree86/Linux-x86_64/535.129.03/NVIDIA-Linux-x86_64-535.129.03.run〈=cn&type=geforcem

  • cudnn 8.9.5 ubuntu18.04.deb适配cuda11.x

https://developer.nvidia.com/rdp/cudnn-archive

  • conda 最新的版本

https://zhuanlan.zhihu.com/p/397096022

conda环境管理,不同Python版本独立运行。

  • pytorch 适配cuda11.8,还需适配conda

Previous PyTorch Versions | PyTorch

PyTorch是一个简单易用的机器学习框架,支持动态计算图和GPU加速计算。

# CUDA 11.8
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

测试是否完成需求

  • 客户测试(可为空)

  • 自己测试(应越多越好)

测试参考

实际测试-root的conda_base_Python3环境下测试pytorch


有帮助的链接

Ubuntu18.04更换国内源-阿里云开发者社区

aichatos永久地址 地址发布页

https://zhuanlan.zhihu.com/p/366882419

https://zhuanlan.zhihu.com/p/266337669

Linux安装NVIDIA显卡驱动的正确姿势-腾讯云开发者社区-腾讯云

Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)-腾讯云开发者社区-腾讯云


散记(心言)

  • 禁用N卡开源驱动,安装闭源驱动需要禁用对应的开源驱动,手动禁用较为稳定。
  • CUDA会安装对应的N卡驱动,需要注意N卡驱动、CUDA、CudNN和PyTorch版本的兼容性。
  • 重装linux应考虑备份etc文件
  • 复用:应可以编写简单的bash脚本,稍微自动化一些,改写少量的代码就完成不同版本的需求,并测试。
  • 地区特征:研究机构可直接访问谷歌,同时也被某外网站点封禁,如大鹅节点访问不了docker。
  • 用户需耦分析:用户及组管理,分区,bash,linux服务与运维。
  • 数据备份性和客户隐私性:首要重要,应最大程度备份保护重要数据,并确保不查看或拷贝客户的私有资料。
  • 多网卡和VPN代理问题:重要,影响网络连接的稳定性和流畅性,可能导致无法正常加载图片或访问特定网站等问题。

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值