Tesla P40终于在DL580 Gen9上面跑起来了!

8e3e4ade077d48917c413818556003c9.gif

正文共:666 字 16 图,预估阅读时间:1 分钟

跌跌撞撞,从Tesla M4终于走到了Tesla P40,显存从4 GB到8 GB,最后再到24 GB,真是不容易。

回顾一下,Tesla M4是最早开始搞的,经历的磨难比较多,主要是不知道怎么把这款GPU设备用起来,从零开始摸索了很久,也趟出了一条路成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11

然后是Tesla P4,这块卡算是用起来最顺利的,因为他跟M4相比,只是架构和规格做了升级,使用方式上没有什么差异。测试下来,性能提升还是很明显的。以鲁大师跑分为例,Tesla M4的得分大概是57685分。

1c7f6c7b410cd85affd768b75c69c815.png

而Tesla P4可以跑到141744分,是M4的2.45倍。

1f8fc1098e3aedf2a7e403513b497bdc.png

最难搞的就属P40了,因为这张卡是全高全长双宽的,我之前的服务器DL360 Gen9放不下,为此还特地新购置了一台服务器DL580 Gen9HPE DL580 Gen9到家了,成功开机!。装在服务器上大概是这个效果,旁边是最早的M4,此刻显得多么的娇小玲珑。

2e1a5126b237ce5d68eb044475fa07f1.jpeg

当然,使用起来也是问题多多,主要是GPU供电的问题,这块GPU的额定功率为250瓦,超过了PCIE供电的最大功率75瓦,需要使用单独的外接供电,供电接口如下图。

e0b25a51f92ef106cef14d9f6aedefb8.png

仅解决这个供电的问题就用了我一个多月的时间,一直在跟卖线和卖卡的商家勾兑,自己也在不断查资料,毫不夸张的说,这部分我搞定了,转接线我自己都能做了。

db3bc00b4083f9cf5a514da03ba5ad61.png

最终,皇天不负有心人,终于在五一之前把GPU用起来了,使用nvidia-smi可以查看设备状态:

1bd0bb66b57b0c10034583822bf48e3c.png

鲁大师显示的显卡信息如下:

20b6cdd1b378c8621c8ae06d5776f514.png

接下来,按照之前的操作复制成功!GTX1050Ti换版本安装Pytorch、CUDA和cuDNN,我先在Windows 10上安装了GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。

90e96e6121f24333c7b22bd20a1e5360.png

最近也不知道怎么了,TUNA的响应速度特别慢,慢到让人难以接受的那种。

经过漫长的等待,终于部署好了,简单做个矩阵运算对比一下。

import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法(耗时操作)
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")

939bb37cf8791ae7292916d6f29e3ecb.png

按照运算时间进行计算,性能大概差了1386倍。不过,这个内存占用量控制的还算可以,运算任务大概占用了19 GB的内存,CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU,所以耗时稍微长一些。

c88feab4b780471813109b86e0ea29ef.png

运算时GPU的瞬时功率也是很高,不过只是瞬时的,显存使用量与内存用量基本持平,能达到19 GB,说明跑ChatGLM3应该问题不大了吧?

9b30472e7980a74a79890444eff07e79.png

那么,增加CPU数量能压缩运算时间吗?要增加数量只能换Windows Server系统,可以先把Windows 10的CPU减少一半试一下。

eccf57f09c6300ce2e8d9a36210ae507.png

CPU数量减少之后,耗时明显增长,大约增加了58%,但不是线型的。为了避免偶然误差,我又测了一次。

f954d01f4cdfaa670edf284c59db7805.png

误差不大。

接下来,我们将系统换成Windows Server系统,使用4颗CPU,运算时间是不是能节约一半呢?

757e430018931bcc361a44801a42d113.png

但实际测试下来,并没有节省时间,耗时反而稍微多了一点,难道是没用起来?通过观察CPU使用率,我们可以看到,176个CPU线程全部排满,但时间确实没降下来。

e68f28665c50edbe47f7d7a4823de945.png

有谁知道这是啥原因不?

最后,在使用2颗CPU的Windows 10中,鲁大师的跑分得分如下:

9cfe4b5933f932a6e1d1dd5c2b82c6c2.png

好像得分也没有比P4高出很多,大概也就是42%而已。

43003a08e8801237baa4d233df31dc07.gif

长按二维码
关注我们吧

9a75ef05e0035f0c140e5aa185071b50.jpeg

8f418b0fb7114f94d57ddaca56acfb2c.png

HPE DL580 Gen9到家了,成功开机!

快速定制VMware ESXi 8.0U2并部署到DL580 Gen9

奇怪的知识又学到了:服务器的序列号、产品ID和UUID不见了怎么办?

风雨同舟,感谢HP Proliant DL360 Gen9陪我走过的四年

RAID阵列的磁盘顺序能否调整?RAID重建需要多久?

如何操作RAID 5阵列的扩容?

将OpenWrt 23.05.3部署到VMware ESXi

惠普SSA(Smart Storage Administrator)配置术语详解

配置Juniper虚墙vSRX基于路由的IPsec VPN(CLI方式)

使用vSRX测试一下IPsec VPN各加密算法的性能差异

RDP授权119天不够用?给你的Windows Server续个命吧!

人工智能如何发展到AIGC?解密一份我四年前写的机器学习分享材料

清华大模型ChatGLM3部署初体验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Danileaf_Guo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值