NVIDIA RTX 5090 32G PCIE互联带宽测试,Llamafactory模型训练,vllm、trtllm模型推理性能测试

、互联带宽

CUDA-samples测试

平台

Pro WS WRX90E-SAGE SE

AMD Ryzen Threadripper PRO 7975WX 32-Cores



0/257 GB

PCIE 5.0 平台

安装完驱动和最新的CUDA toolkit

从nvidia官方cuda仓库中,可以下载到cudasamples(但是不能安装最新的12.8,只能装12.4,12.8实测在12.8.96驱动中编译不通过)

git clone https://github.com/NVIDIA/cuda-samples.git

devicequery结果

p2p带宽测试结果

可以看到峰值能来到50Gb/s左右,比就算4090开启了P2P后的性能也快了一倍左右

NCCL带宽测试

由于5090属于sm120,在目前cuda12.8中的nccl仍对其有支持上的问题,因此需要手动重新编译安装最新版的NCCL通信库

移除现有NCCL

apt-get remove --purge libnccl2 libnccl-dev -y
apt-get autoremove --purge -y

下载最新NCCL

git clone https://github.com/NVIDIA/nccl.git & cd nccl/

安装依赖

apt update
apt install build-essential devscripts debhelper fakeroot -y

编译NCCL(可加-j参数多核编译)

make pkg.debian.build

安装最新的NCCL

cd /build/pkg/deb/
dpkg -i libnccl-dev_2.26.2-1+cuda12.8_amd64.deb libnccl2_2.26.2-1+cuda12.8_amd64.deb

安装完成后,可以通过安装nccl-tesl来测试安装是否正确

推理性能测试

VLLM

从github上下载最新的vllm

git clone https://github.com/vllm-project/vllm.git && cd vllm
python use_existing_torch.py

安装依赖

pip install -r requirements/build.txt
pip install setuptools_scm

创建ccache文件夹

mkdir <path/to/ccache/dir>

编译安装

MAX_JOBS=<number> CCACHE_DIR=<path/to/ccache/dir> python setup.py develop

安装完成后,即可用python检查vllm版本

python -c "import vllm; print(vllm.__version__)"

### DeepSeek-R1-70B 模型本地部署硬件要求 对于DeepSeek-R1-70B模型的本地部署,硬件配置的选择至关重要。考虑到该模型庞大的参数量以及复杂的运算需求,合理的硬件规划能够显著提升部署的成功率与运行效率。 #### GPU 配置建议 针对不同场景下的应用需求,GPU 的选择有所不同: - **企业级文档分析或多轮对话系统**:推荐使用单张 RTX 4090 (24GB 显存),适用于中小规模的数据处理任务;当显存量不足时可考虑升级至具备35GB以上显存的产品[^4]。 - **科研计算或金融建模**:更高级别的性能支持则需采用双卡方案——两片RTX 5090通过NVLink技术连接起来提供总计64GB显存空间,并配备至少32核心CPU处理器来加速整体流程。 - **国家级AI研究或通用人工智能探索**:面对最严苛的任务挑战,则应构建由八块NVIDIA H100 Tensor Core GPUs组成的集群环境,借助Infiniband高速网络互连协议确保节点间通信无阻塞的同时获得惊人的并行计算效能,总显存容量可达640GB级别。 #### CPU 及其他组件考量 除了强大的图形处理单元外,中央处理器(CPU)同样不可忽视。根据具体应用场景的不同,可以选择AMD EPYC系列中的高性能型号作为主机心脏部位的动力源。例如,在上述提到的最后一类极端条件下,就需要搭载拥有64个物理线程的强大服务器级芯片组以支撑起整个系统的稳定运转。 此外,充足的内存(RAM)也是保障大型语言模型顺利加载的关键因素之一。通常情况下,随着所选用GPU数量增加而相应扩大RAM规格会是比较稳妥的做法。至于存储介质方面,快速读写的SSD固态硬盘自然是首选项,特别是那些带有PCIe接口的企业级产品更能满足频繁IO操作的需求。 ```bash # 示例命令用于启动vllm服务端口监听 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 32768 \ --enforce-eager ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aosudh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值