正文共:666 字 16 图,预估阅读时间:1 分钟
跌跌撞撞,从Tesla M4终于走到了Tesla P40,显存从4 GB到8 GB,最后再到24 GB,真是不容易。
回顾一下,Tesla M4是最早开始搞的,经历的磨难比较多,主要是不知道怎么把这款GPU设备用起来,从零开始摸索了很久,也趟出了一条路(成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11)。
然后是Tesla P4,这块卡算是用起来最顺利的,因为他跟M4相比,只是架构和规格做了升级,使用方式上没有什么差异。测试下来,性能提升还是很明显的。以鲁大师跑分为例,Tesla M4的得分大概是57685分。
而Tesla P4可以跑到141744分,是M4的2.45倍。
最难搞的就属P40了,因为这张卡是全高全长双宽的,我之前的服务器DL360 Gen9放不下,为此还特地新购置了一台服务器DL580 Gen9(HPE DL580 Gen9到家了,成功开机!)。装在服务器上大概是这个效果,旁边是最早的M4,此刻显得多么的娇小玲珑。
当然,使用起来也是问题多多,主要是GPU供电的问题,这块GPU的额定功率为250瓦,超过了PCIE供电的最大功率75瓦,需要使用单独的外接供电,供电接口如下图。
仅解决这个供电的问题就用了我一个多月的时间,一直在跟卖线和卖卡的商家勾兑,自己也在不断查资料,毫不夸张的说,这部分我搞定了,转接线我自己都能做了。
最终,皇天不负有心人,终于在五一之前把GPU用起来了,使用nvidia-smi可以查看设备状态:
鲁大师显示的显卡信息如下:
接下来,按照之前的操作(复制成功!GTX1050Ti换版本安装Pytorch、CUDA和cuDNN),我先在Windows 10上安装了GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。
最近也不知道怎么了,TUNA的响应速度特别慢,慢到让人难以接受的那种。
经过漫长的等待,终于部署好了,简单做个矩阵运算对比一下。
import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法(耗时操作)
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")
按照运算时间进行计算,性能大概差了1386倍。不过,这个内存占用量控制的还算可以,运算任务大概占用了19 GB的内存,CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU,所以耗时稍微长一些。
运算时GPU的瞬时功率也是很高,不过只是瞬时的,显存使用量与内存用量基本持平,能达到19 GB,说明跑ChatGLM3应该问题不大了吧?
那么,增加CPU数量能压缩运算时间吗?要增加数量只能换Windows Server系统,可以先把Windows 10的CPU减少一半试一下。
CPU数量减少之后,耗时明显增长,大约增加了58%,但不是线型的。为了避免偶然误差,我又测了一次。
误差不大。
接下来,我们将系统换成Windows Server系统,使用4颗CPU,运算时间是不是能节约一半呢?
但实际测试下来,并没有节省时间,耗时反而稍微多了一点,难道是没用起来?通过观察CPU使用率,我们可以看到,176个CPU线程全部排满,但时间确实没降下来。
有谁知道这是啥原因不?
最后,在使用2颗CPU的Windows 10中,鲁大师的跑分得分如下:
好像得分也没有比P4高出很多,大概也就是42%而已。
长按二维码
关注我们吧
快速定制VMware ESXi 8.0U2并部署到DL580 Gen9
奇怪的知识又学到了:服务器的序列号、产品ID和UUID不见了怎么办?
风雨同舟,感谢HP Proliant DL360 Gen9陪我走过的四年
将OpenWrt 23.05.3部署到VMware ESXi
惠普SSA(Smart Storage Administrator)配置术语详解
配置Juniper虚墙vSRX基于路由的IPsec VPN(CLI方式)
RDP授权119天不够用?给你的Windows Server续个命吧!
人工智能如何发展到AIGC?解密一份我四年前写的机器学习分享材料