Tesla P40终于在DL580 Gen9上面跑起来了！

最新推荐文章于 2024-08-06 17:39:20 发布

Danileaf_Guo

最新推荐文章于 2024-08-06 17:39:20 发布

阅读量959

点赞数 18

本文链接：https://blog.csdn.net/gtj0617/article/details/138406090

版权

正文共：666 字 16 图，预估阅读时间：1 分钟

跌跌撞撞，从Tesla M4终于走到了Tesla P40，显存从4 GB到8 GB，最后再到24 GB，真是不容易。

回顾一下，Tesla M4是最早开始搞的，经历的磨难比较多，主要是不知道怎么把这款GPU设备用起来，从零开始摸索了很久，也趟出了一条路（成了！Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11）。

然后是Tesla P4，这块卡算是用起来最顺利的，因为他跟M4相比，只是架构和规格做了升级，使用方式上没有什么差异。测试下来，性能提升还是很明显的。以鲁大师跑分为例，Tesla M4的得分大概是57685分。

而Tesla P4可以跑到141744分，是M4的2.45倍。

最难搞的就属P40了，因为这张卡是全高全长双宽的，我之前的服务器DL360 Gen9放不下，为此还特地新购置了一台服务器DL580 Gen9（HPE DL580 Gen9到家了，成功开机！）。装在服务器上大概是这个效果，旁边是最早的M4，此刻显得多么的娇小玲珑。

当然，使用起来也是问题多多，主要是GPU供电的问题，这块GPU的额定功率为250瓦，超过了PCIE供电的最大功率75瓦，需要使用单独的外接供电，供电接口如下图。

仅解决这个供电的问题就用了我一个多月的时间，一直在跟卖线和卖卡的商家勾兑，自己也在不断查资料，毫不夸张的说，这部分我搞定了，转接线我自己都能做了。

最终，皇天不负有心人，终于在五一之前把GPU用起来了，使用nvidia-smi可以查看设备状态：

鲁大师显示的显卡信息如下：

接下来，按照之前的操作（复制成功！GTX1050Ti换版本安装Pytorch、CUDA和cuDNN），我先在Windows 10上安装了GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。

最近也不知道怎么了，TUNA的响应速度特别慢，慢到让人难以接受的那种。

经过漫长的等待，终于部署好了，简单做个矩阵运算对比一下。

import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法（耗时操作）
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")