《NVIDIA RTX 5090 & 4090 与 NVIDIA Tesla A100 - PCIE - 40GB 性能对比报告》

萝卜头深圳

已于 2025-04-18 09:19:19 修改

阅读量1k

点赞数 12

文章标签：人工智能

于 2025-04-18 09:17:30 首次发布

本文链接：https://blog.csdn.net/qq_35083864/article/details/147319825

版权

一、项目背景

NVIDIA GeForce RTX 4090、RTX 5090 以及 NVIDIA A100 - PCIE - 40GB ，4090和5090是高端消费卡，A100是高性能显卡，都是市场上具有代表性的高端显卡，本次测试旨在通过科学的实验方法，对比这三款显卡在相同任务下的性能表现,在选择合适的计算硬件时提供参考依据。

二、测试环境说明

2.1 硬件环境

本次测试使用了三种不同型号的显卡，每种显卡均采用双卡配置，具体信息如下：

显卡型号	显存大小	数量	计算能力	VMM 支持
NVIDIA GeForce RTX 4090	24GB	2	8.9	是
NVIDIA GeForce RTX 5090	32GB	2	12.0	是
NVIDIA A100 - PCIE - 40GB	40GB	2	8.0	是

2.2 软件环境

操作系统：Linux 系统，具备稳定的计算环境和高效的资源管理能力。
计算后端：采用 CUDA 作为计算加速框架，充分发挥显卡的并行计算能力。
测试模型：使用 DeepSeek - R1 - Distill - Qwen - 14B - F16.gguf 模型，其具体参数为：
- 模型名称：qwen2 14B F16
- 模型大小：27.51 GiB
- 参数量：14.77 B
测试参数设置：
- 线程数：设置为 32 个线程，以平衡计算资源的利用和任务的并行处理能力。
- 批量大小：固定为 32768，确保在相同的数据处理规模下进行测试。
- 加载到 GPU 的层数（ngl）：设置为 66 层，使模型的大部分计算任务在 GPU 上完成。

三、各显卡测试结果

3.1 NVIDIA GeForce RTX 4090 测试结果

model	size	params	backend	ngl	threads	n_batch	test	t/s
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	pp512	5165.43 ± 22.89
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	tg512	30.22 ± 0.01

3.2 NVIDIA GeForce RTX 5090 测试结果

model	size	params	backend	ngl	threads	n_batch	test	t/s
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	pp512	7173.34 ± 2.16
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	tg512	45.52 ± 0.02

3.3 NVIDIA A100 - PCIE - 40GB 测试结果

model	size	params	backend	ngl	threads	n_batch	test	t/s
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	pp512	4711.67 ± 8.35
qwen2 14B F16	27.51 GiB	14.77 B	CUDA	66	32	32768	tg512	37.57 ± 0.11

四、性能对比分析

4.1 pp512 测试对比

显卡型号	每秒处理速度（t/s）	波动范围（±）	相较于 4090 速度提升率	相较于 A100 速度提升率
NVIDIA GeForce RTX 4090	5165.43	22.89	-	-
NVIDIA GeForce RTX 5090	7173.34	2.16	[（7173.34 - 5165.43）/ 5165.43]×100% ≈ 38.87%	[（7173.34 - 4711.67）/ 4711.67]×100% ≈ 52.24%
NVIDIA A100 - PCIE - 40GB	4711.67	8.35	-	-

在 pp512 测试中，RTX 5090 的每秒处理速度优势明显。其速度达到 7173.34 t/s，远高于 RTX 4090 的 5165.43 t/s 和 A100 的 4711.67 t/s。与 RTX 4090 相比，速度提升约 38.87%；与 A100 相比，速度提升约 52.24%。而且，RTX 5090 的波动范围仅为 2.16，是三款显卡中最小的，说明其性能稳定性最佳。

4.2 tg512 测试对比

显卡型号	每秒处理速度（t/s）	波动范围（±）	相较于 4090 速度提升率	相较于 A100 速度提升率
NVIDIA GeForce RTX 4090	30.22	0.01	-	-
NVIDIA GeForce RTX 5090	45.52	0.02	[（45.52 - 30.22）/ 30.22]×100% ≈ 50.63%	[（45.52 - 37.57）/ 37.57]×100% ≈ 21.16%
NVIDIA A100 - PCIE - 40GB	37.57	0.11	-	-

在 tg512 测试中，RTX 5090 同样表现出色。其每秒处理速度为 45.52 t/s，领先于 RTX 4090 的 30.22 t/s 和 A100 的 37.57 t/s。相较于 RTX 4090，速度提升约 50.63%；相较于 A100，速度提升约 21.16%。虽然三款显卡的波动范围都较小，但 RTX 5090 的速度提升优势显著。

五、结论与建议

5.1 结论

综合 pp512 和 tg512 两项测试结果，NVIDIA GeForce RTX 5090 在性能上全面超越 NVIDIA GeForce RTX 4090 和 NVIDIA A100 - PCIE - 40GB。其较高的计算能力（12.0）使得在处理大规模模型时具有更高的效率，并且在性能稳定性方面表现突出，波动范围小，能够为计算任务提供持续稳定的支持。