2023炼丹选购高性价比的GPU

最新推荐文章于 2025-01-24 14:55:34 发布

。 7.

最新推荐文章于 2025-01-24 14:55:34 发布

阅读量1.6k

点赞数 1

分类专栏：电脑深度学习入门文章标签：深度学习人工智能 python

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4Mjg4NTQxMQ==&mid=2247488609&idx=3&sn=edab72fadd8c2157c601be6877678a8f&chksm=cf4e822df8390b3bb60465adba88f48c9462d43ca177a077de37e57d06e8588026f28e55e923&mpshare=1&scene=23&srcid=0308mmkThI04iTEWaOLh0vaP&sharer_sharetim

版权

深度学习入门同时被 2 个专栏收录

7 篇文章

订阅专栏

2 篇文章

订阅专栏

文章介绍了深度学习领域中GPU的选择，推荐RTX3080适合16位训练，RTX4070Ti适合8位和16位推理，且在综合性价比上更优。TensorCore技术对加速矩阵乘法有显著效果，内存带宽和缓存也是影响性能的关键因素。TimDettmers建议根据任务需求和预算选择合适的GPU，如果预算有限，可以考虑二手市场或云服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

推荐信息由知名测评博主、华盛顿大学在读博士Tim Dettmers提供

对于16位训练过程，RTX 3080的性价比最高；对于8位和16位推理，RTX 4070Ti的性价比最高。

Tim哥觉得，对于深度学习，“AMD GPU+ROCm”目前还打不过“NVIDIA GPU+CUDA”。

手把手推荐挑选GPU

Tim哥自制了一张表格，展示出在训练和推理过程中，一美元能买到多少算力；这在一定程度上体现了英伟达众显卡的性价比。

“综合性价比”——

除了看一美元能买多少算力，还要结合显卡的运行成本，比如电费。所以总的来说，还是RTX 4070Ti的性价比更高。

虽然RTX3080和RTX 4070 Ti性价比高，但这俩的内存是个明显短板：

Tim哥指出，12GB在很多情况下都不够用，要运行Transformer模型的话，至少需要24GB。

核心思想是：不管干啥，一定要保证GPU的内存满足你的需求。

首先，要弄清楚这个GPU是个人用还是公用，还有就是要处理什么任务——比如，是要训练语言大模型（LLM）吗、参数量有没有超过130亿？还是就做点小项目？

然后再根据自己的钱包情况，参考上面的表格，选择最合适的GPU。

那如果实在钱不够，即使是Tim哥推荐的最便宜的GPU也买不起，还有办法吗？

那可以考虑二手呀！

先去买个便宜的GPU用于原型设计和测试，然后在云端进行全面的实验和测试。

关键性能点有哪些？

来叙一叙关乎深度学习速度的几大GPU性能关键点。

Tim哥指出，重点有四：GPU的内存、核心、Tensor Core和缓存。

而其中最重要的是Tensor Core。

Tensor Core

Tensor Core是英伟达为其高端GPU开发的一项技术，本质上，就是加速矩阵乘法的处理单元。其中Tensor即张量，是一种能表示所有类型数据的数据类型。

Tim表示，在所有深度神经网络中，最昂贵的部分是矩阵乘法，而有了Tensor Core，运算速度会变得非常快，有助于大大减少成本。

就拿一个入门级的32×32矩阵乘法来说，通过Tensor Core，将矩阵乘法的运算时间从504个周期，降低到235个周期，直接减半。

内存带宽

而当两个GPU都有Tensor Cores时，要比较它们性能，最佳指标之一就是内存带宽。

例如，A100 GPU的内存带宽为1555GB/s，而V100为900GB/s。因此，A100和V100相比，运算速度大概是后者的1555/900=1.73倍。

由此可见，内存带宽会影响到Tensor Core的性能发挥。

缓存

研究人员开始寻找其他GPU属性，使内存数据传输到Tensor Core的速度更快。

GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。

对于缓存来说，数据块越小，计算速度越快；所以需要把大的矩阵乘法，划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为“内存碎片”*（memory tiles）。

一部分“碎片”被加载到Tensor Core中，由寄存器直接寻址。

举个例子~

根据英伟达Ampere架构的规则

把每一个权重矩阵都切成4个“碎片”，并假设其中两个为零——于是就得到了一堆稀疏权重矩阵。

然后把这些稀疏权重矩阵与一些密集输入相乘，Tensor Core功能启动，将稀疏矩阵压缩为密集表示，其大小为下图所示的一半。

在压缩之后，密集压缩的“碎片”被送入Tensor Core，计算的矩阵乘法是一般大小的两倍。这样，运算速度就成了通常的2倍。

2023炼丹GPU选购指南来了！英伟达3080和4070Ti成性价比之王！ (qq.com)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。