Tesla P4终于在DL580 Gen9上面跑起来了!

413f47bad6e0e127efc7ae124e66be14.gif

正文共:666 字 11 图,预估阅读时间:1 分钟

跌跌撞撞,从Tesla M4终于走到了Tesla P40,显存从4 GB到8 GB,最后再到24 GB,真是不容易。

回顾一下,Tesla M4是最早开始搞的,经历的磨难比较多,主要是不知道怎么把这款GPU设备用起来,从零开始摸索了很久成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11

然后是Tesla P4,这块卡算是用起来最顺利的,因为他跟M4相比,只是架构和规格做了升级,使用方式上没有什么差异。测试下来,性能提升还是很明显的。以鲁大师跑分为例,Tesla M4的得分大概是57685分。

c8ddd74951891eb4701c553bcaa6c68b.png

而Tesla P4可以跑到141744分,是M4的2.45倍。

8b25328f3cd65f92066e5c4aefb5952c.png

最难搞的就是P40了,因为这张卡是全高双宽的,我之前的服务器放不下,为此还特地新购置了一台服务器DL580 Gen9HPE DL580 Gen9到家了,成功开机!。装在服务器上大概是这个效果,旁边是最早的M4。多么的娇小玲珑。

70f09763d4a5a5e107687ada5b6c48a1.jpeg

当然,使用起来也是问题多多,主要是供电的问题,这块GPU额定功率为250瓦,超过了PCIE供电的最大功率75瓦,需要使用单独的外接供电,仅解决供电的问题就用了我一个多月的时间。

9653d0c5590cb40bdd1f67efcfb4bdeb.png

不过,皇天不负有心人,终于在五一之前把卡用起来了,目前状态如下图:

6ba74e4ddbd4167541bd393195f8ff6b.png

鲁大师显示的显卡信息如下:

ff2e2eebdc9345800289057cbc4eee40.png

按照之前的操作复制成功!GTX1050Ti换版本安装Pytorch、CUDA和cuDNN,安装好GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。

4d5851a0a030e0de28d4c25521d18b79.png

最近也不知道怎么了,TUNA的响应速度特别慢,慢到让人难以接受的那种。

经过漫长的等待,终于部署好了,简单做个矩阵运算对比一下。

import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法(耗时操作)
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")

2a58c96665b4bffb7421d6b489c93b08.png

按照运算时间进行计算,CPU和GPU的性能大概差了1386倍。不过,这个内存占用量控制的还算可以,运算任务大概占用了19 GB的内存,CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU,所以耗时稍微长一些,不知道换成Windows Server系统是不是能节约一半的时间?

522fd1f4f8e57355bcea81e99691e637.png

运算时GPU的瞬时功率也是很高,不过只是瞬时的,显存使用量与内存用量基本持平,能达到19 GB,说明跑ChatGLM3应该问题不大了吧?

2a11b6ba2eba3a71dfd11c1d0c615e28.png

服务器在使用2颗CPU的情况下,鲁大师跑分得分如下:

868823efa6b47af86480a148d2643056.png

好像得分也没有比P4高出很多,大概也就是42%而已。

d6a5ff74442a1cd1b905b82c9335f3ec.gif

长按二维码
关注我们吧

412239345de3575f64284b29e179f9ea.jpeg

81dec2920a99e52f2f160cee550750c2.png

HPE DL580 Gen9到家了,成功开机!

快速定制VMware ESXi 8.0U2并部署到DL580 Gen9

奇怪的知识又学到了:服务器的序列号、产品ID和UUID不见了怎么办?

风雨同舟,感谢HP Proliant DL360 Gen9陪我走过的四年

RAID阵列的磁盘顺序能否调整?RAID重建需要多久?

如何操作RAID 5阵列的扩容?

HPE服务器配置通过业务网卡登录iLO管理页面

将OpenWrt 23.05.3部署到VMware ESXi

惠普SSA(Smart Storage Administrator)配置术语详解

配置Juniper虚墙vSRX基于路由的IPsec VPN(CLI方式)

使用vSRX测试一下IPsec VPN各加密算法的性能差异

RDP授权119天不够用?给你的Windows Server续个命吧!

人工智能如何发展到AIGC?解密一份我四年前写的机器学习分享材料

清华大模型ChatGLM3部署初体验

  • 15
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Danileaf_Guo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值