Tesla P4终于在DL580 Gen9上面跑起来了！

最新推荐文章于 2024-12-27 10:39:08 发布

Danileaf_Guo

最新推荐文章于 2024-12-27 10:39:08 发布

阅读量1.5k

点赞数 15

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gtj0617/article/details/138333074

本文讲述了作者逐步升级GPU，从TeslaM4到P40，过程中遇到的显存问题、供电挑战以及性能测试。作者通过实例展示了从M4的57685分提升到P40的141744分，以及在P40上使用GPU进行矩阵运算时的性能对比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正文共：666 字 11 图，预估阅读时间：1 分钟

跌跌撞撞，从Tesla M4终于走到了Tesla P40，显存从4 GB到8 GB，最后再到24 GB，真是不容易。

回顾一下，Tesla M4是最早开始搞的，经历的磨难比较多，主要是不知道怎么把这款GPU设备用起来，从零开始摸索了很久（成了！Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11）。

然后是Tesla P4，这块卡算是用起来最顺利的，因为他跟M4相比，只是架构和规格做了升级，使用方式上没有什么差异。测试下来，性能提升还是很明显的。以鲁大师跑分为例，Tesla M4的得分大概是57685分。

而Tesla P4可以跑到141744分，是M4的2.45倍。

最难搞的就是P40了，因为这张卡是全高双宽的，我之前的服务器放不下，为此还特地新购置了一台服务器DL580 Gen9（HPE DL580 Gen9到家了，成功开机！）。装在服务器上大概是这个效果，旁边是最早的M4。多么的娇小玲珑。

当然，使用起来也是问题多多，主要是供电的问题，这块GPU额定功率为250瓦，超过了PCIE供电的最大功率75瓦，需要使用单独的外接供电，仅解决供电的问题就用了我一个多月的时间。

不过，皇天不负有心人，终于在五一之前把卡用起来了，目前状态如下图：

鲁大师显示的显卡信息如下：

按照之前的操作（复制成功！GTX1050Ti换版本安装Pytorch、CUDA和cuDNN），安装好GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。

最近也不知道怎么了，TUNA的响应速度特别慢，慢到让人难以接受的那种。

经过漫长的等待，终于部署好了，简单做个矩阵运算对比一下。

import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法（耗时操作）
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")

按照运算时间进行计算，CPU和GPU的性能大概差了1386倍。不过，这个内存占用量控制的还算可以，运算任务大概占用了19 GB的内存，CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU，所以耗时稍微长一些，不知道换成Windows Server系统是不是能节约一半的时间？