使用Tesla P4 双卡配置torch机器学习环境

写在前面

最近一个朋友自己组了一台机器,双Tesla P4 N卡,我准备尝试学习一下配置PyTorch的机器学习环境。主要是之前都是自己的笔记本的游戏显卡,没碰到过这种型号,而且还是双卡,这就更得研究研究环境配置了。

环境

系统:ubuntu 22.04

显卡:Tesla P4 * 2

驱动配置

首先,对于N卡,肯定要先配置N卡驱动。先看一下机器上的显卡

lspci | grep -i nvidia

可以看到是两张Tesla P4卡,这个单卡是8G的显存,根据英伟达的官方数据对比计算能力在6.1 参考:https://developer.nvidia.com/cuda-gpus

相对来说性价比还是不错的,知名云厂商GPU云服务器对应的价格应该是4k+/月。而我朋友组装的成本价远低于这个月租金,且CPU和内存配置还远超于它。

有点跑题了…继续

不同型号的卡驱动也不同,我们通过这个命令来让ubuntu自己推荐驱动

ubuntu-drivers devices

找到有recommended标记的,就是它了

sudo ubuntu-drivers autoinstall

通过ubuntu-drivers工具自动安装

随后需要reboot重启一下服务器即可

输入nvidia-smi来查看显卡情况

nvidia-smi

至此配套的显卡驱动装好了,记住这个CUDA版本信息。

PyTorch配置

刚刚咱们的CUDA版本信息是11.4,目前官方给出11.x版本最新的是11.8,官网链接:https://pytorch.org/

经过查询,CUDA是支持向下兼容的

我这个装的驱动版本号是470,所以直接使用11.8是没问题的

参考链接:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

这就简单了,直接复制该命令安装即可。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

随后打开python3,执行

import torch
print(torch.cuda.is_available())
print(torch.cuda.device_count())

至此,torch配置完毕

使用双卡运行

这里简单提一嘴,如果想使用多卡同时调用,需要使用DataParallel方法即可,这是单机多卡的适用方法

model = Model()
model = torch.nn.DataParallel(model)
model.to('cuda')

这样就会自动的将模型分配到所有可用的GPU上了。

推广

感兴趣的可以关注下本人的公众号:飞羽技术工坊。
在这里插入图片描述

### 如何配置适合机器学习的工作站 #### 硬件选择 对于构建一台高效的机器学习工作站,硬件的选择至关重要。合理的硬件配置能够显著提升模型训练的速度和效率。 - **处理器 (CPU)**:建议选用多核心高性能的 CPU,例如 Intel 或 AMD 的高端型号。根据实际需求可以选择不同规格的核心数与频率组合[^3]。 - **图形处理单元 (GPU)**:NVIDIA GPU 是目前最广泛应用于深度学习领域的产品之一。RTX 4070 这样的消费级显卡也能够在一定程度上满足日常研究的需求;而对于更复杂的大规模数据集,则可能需要考虑 Tesla V100、A100 等专业级别的加速器[^2]。 - **内存 (RAM)**:充足的 RAM 对于加载大型数据集非常重要。推荐至少配备 64 GB DDR4 内存,如果预允许的话可以增加到更高容量以支持更大的批处理量或更多并发任务运行。 - **硬盘存储**:考虑到大量文件读写操作频繁发生,在选购 SSD 固态硬盘的同时也要兼顾总线带宽等因素来保障整体性能表现。此外还可以搭配机械硬盘用于长期保存资料备份等用途。 - **网络连接**:高速稳定的互联网接入有助于获取开源框架更新及在线资源分享社区的支持服务。 #### 软件安装与环境搭建 完成上述硬件准备之后,接下来就是操作系统及其配套工具链的部署工作: ##### 安装 Linux 发行版 Ubuntu LTS 版本因其良好的兼容性和活跃度成为众多开发者首选的操作平台。最新发布的 Ubuntu 24.04 桌面版本不仅提供了友好的图形界面还内置了许多实用功能方便初学者入门使用。 ##### 配置 NVIDIA 显卡驱动程序 确保已正确识别并激活所使用GPU 设备,这一步骤通常涉及到下载对应版本的官方驱动包并通过命令行方式进行手动安装设置过程[^1]。 ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ubuntu-driver autoinstall ``` ##### 安装 CUDA Toolkit 和 cuDNN 库 这两个组件构成了 TensorFlow/PyTorch 等主流框架调用底层计算的关键接口层。按照官方文档指导逐步执行相关指令即可顺利完成整个流程。 ```bash wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb sudo dpkg -i cuda-keyring_1.0-1_all.deb sudo apt-get update sudo apt-get -y install cuda export PATH=/usr/local/cuda-12.0/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-12.0/lib64\ ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} # For cudnn, follow the instructions on Nvidia's official website to download and extract it. tar -xzvf cudnn-linux-x86_64-*.*.*_*-cuda*.tgz sudo cp cuda/include/* /usr/local/cuda/include/ sudo cp cuda/lib64/* /usr/local/cuda/lib64/ ``` ##### 测试 PyTorch/TensorFlow 是否能正常利用 GPU 加速 最后通过简单的 Python 脚本来验证当前环境中是否存在可用的 GPU 资源,并确认其能否被 ML/DL 工具有效访问。 ```python import torch print(torch.cuda.is_available()) print(torch.version.cuda) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

银空飞羽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值