NVIDIA RTX 5090 32G PCIE互联带宽测试，Llamafactory模型训练，vllm、trtllm模型推理性能测试

最新推荐文章于 2025-05-07 09:58:42 发布

aosudh

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量287

点赞数 6

分类专栏： NVIDIA AI HPC 文章标签：人工智能服务器 ai pip 深度学习 p2p 计算机外设

本文链接：https://blog.csdn.net/aosudh/article/details/147146896

版权

6 篇文章

订阅专栏

6 篇文章

订阅专栏

5 篇文章

订阅专栏

、互联带宽

平台

Pro WS WRX90E-SAGE SE

AMD Ryzen Threadripper PRO 7975WX 32-Cores

0/257 GB

PCIE 5.0 平台

从nvidia官方cuda仓库中，可以下载到cudasamples（但是不能安装最新的12.8，只能装12.4，12.8实测在12.8.96驱动中编译不通过）

git clone https://github.com/NVIDIA/cuda-samples.git

devicequery结果

可以看到峰值能来到50Gb/s左右，比就算4090开启了P2P后的性能也快了一倍左右

由于5090属于sm120，在目前cuda12.8中的nccl仍对其有支持上的问题，因此需要手动重新编译安装最新版的NCCL通信库

apt-get remove --purge libnccl2 libnccl-dev -y
apt-get autoremove --purge -y

git clone https://github.com/NVIDIA/nccl.git & cd nccl/

apt update
apt install build-essential devscripts debhelper fakeroot -y

make pkg.debian.build

cd /build/pkg/deb/
dpkg -i libnccl-dev_2.26.2-1+cuda12.8_amd64.deb libnccl2_2.26.2-1+cuda12.8_amd64.deb

安装完成后，可以通过安装nccl-tesl来测试安装是否正确

从github上下载最新的vllm

git clone https://github.com/vllm-project/vllm.git && cd vllm

python use_existing_torch.py

安装依赖

pip install -r requirements/build.txt

pip install setuptools_scm

创建ccache文件夹

mkdir <path/to/ccache/dir>

编译安装

MAX_JOBS=<number> CCACHE_DIR=<path/to/ccache/dir> python setup.py develop

安装完成后，即可用python检查vllm版本

python -c "import vllm; print(vllm.__version__)"