跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉

最新推荐文章于 2023-09-20 09:52:26 发布

VIP文章 weixin_39968861

最新推荐文章于 2023-09-20 09:52:26 发布

阅读量3k

点赞数

文章标签：跑深度模型的显卡

公众号关注 “Python遇见机器学习”

设为“星标”，第一时间知晓最新干货~

本文转载自机器之心

众所周知，深度学习是一个很吃算力的领域，所以，GPU 选得好不好直接决定了你的炼丹体验。那么，哪些指标是你在买 GPU 时应该重视的呢？RAM、core 还是 tensor core？如何做出一个高性价比的选择？文本将重点讨论这些问题，同时指出一些选购误区。 选择 GPU 时你需要知道的东西 在选购 GPU 之前，你需要知道一些指标在深度学习中意味着什么。首先是 Tensor Core，它可以让你在计算乘法和加法时将时钟周期降至 1/16，减少重复共享内存访问，让计算不再是整个流程中的瓶颈(瓶颈变成了获取数据的速度)。现在安培架构一出，更多的人可以用得起带 Tensor Core 的显卡了。因为处理任务方法的特性，显存是使用 Tensor Core 进行矩阵乘法的周期成本中最重要的部分。具体说来，需要关注的参数是内存带宽(Bandwidth)。如果可以减少全局内存的延迟，我们可以进一步拥有更快的 GPU。在一些案例中，我们可以体验到 Tensor Core 的强大，它是如此之快，以至于总是在等内存传来的数据——在 BERT Large 的训练中，Tensor Core 的 TFLOPS 利用率约为 30％，也就是说，70％的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时，最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s，而 V100 的内存带宽为 900 GB/s，因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。我们预计两代配备 Tensor Core 的 GPU 架构之间的差异主要在于内存带宽，其他提升来自共享内存 / L1 缓存以及 Tensor Core 中更好的寄存器使用效率，预估的提升范围约在 1.78-1.87 倍之间。在实际应用中，通过 NVLink 3.0，Tesla A100 的并联效率又要比 V100 提升 5%。我们可以根据英伟达提供的直接数据来估算特定深度学习任务上的速度。与 Tesla V100 相比，A100 的速度提升是：

SE-ResNeXt101：1.43 倍
Masked R-CNN：1.47 倍
Transformer(12 层机器翻译，在 WMT14 en-de 数据集上)：1.70 倍

看来对于计算机视觉任务来说，新架构的提升相对不明显。这可能是因为小张量尺寸、准备矩阵乘法所需的运算无法让 GPU 满负载。也可能是由于特定架构(如分组卷积)导致的结果。在 Transformer 上，预估的提升和实际跑起来非常接近，这可能是因为用于大型矩阵的算法非常简单，我们可以使用这些实际效果来计算 GPU 的成本和效率。当然，在发布会中英伟达着重指出：安培架构在稀疏网络的训练当中速度提升了一倍。稀疏训练目前应用较少，但是未来的一个趋势。安培还带有新的低精度数据类型，这会使低精度更加容易，但不一定比以前的 GPU 更快。英伟达花费大量精力介绍了新一代 RTX 3090 的风扇设计，它看起来很好，但并联起来效果如何还要打上问号。在任何情况下水冷都是效果更好的方案，如果想要并联 4 块 GPU，你需要注意水冷的解决方案——它们可能会体积过大。解决散热问题的另一种方法是购买 PCIe 扩展器，并在机箱内原先不可能的位置放 GPU。这非常有效，华盛顿大学的其他博士研究生和作者本人使用这种方法都取得了成功。它看起来不漂亮，但是可以让你的 GPU 保持凉爽！

4 块 RTX 2080Ti 创始版 GPU 的装法：虽然看起来乱作一团，但用了两年没出问题。 还有电源问题，RTX 3090 是一个 3 插槽 GPU，因此在采用英伟达默认风扇设计的情况下，你不能在 4x 的主板上使用它。这是合情合理的，因为它的标准功率是 350W，散热压力也更大。RTX 3080 的 320W TDP 压力只是稍稍小一点，想要冷却 4 块 RTX 3080 也将非常困难。在 4x RTX 3090 的情况下，你很难为 4x 350W = 1400W 的系统找到很好的供电方式。1600W 的电源或许可以，但最好选择超过 1700W 的 PSU——毕竟黄仁勋在发布中希望你给单卡的 RTX 3080 装上 700W 的电源。然而目前市面上并没有超过 1600W 的台式电脑电源，你得考虑服务器或者矿机 PSU 了。 GPU 深度学习性能排行 下图展示了当前热门的 Nvidia 显卡在深度学习方面的性能表现(以 RTX 2080 Ti 为对比基准)。从图中可以看出，A100(40GB)在深度学习方面表现最为强劲，是 RTX 2080 Ti 两倍还多；新出的 RTX 3090(24GB)排第二，是 RTX 2080 Ti 的 1.5 倍左右。但比较良心的是，RTX 3090 的价格只涨了 15%。

每一美元能买到多少算力？ 排在天梯图顶端的显卡确实是香，但普通人更关心的还是性价比，也就是一块钱能买到多少算力。在讨论这个问题之前，先来看一下各种任务的大致内存需求：

使用预训练 transformer 和从头训练小型 transformer：>= 11GB；
训练大型 transformer 或卷积网络：>= 24 GB；
原型神经网络(transformer 或卷积网络)：>= 10 GB；
Kaggle 比赛：>= 8 GB；
应用计算机视觉：>= 10GB。

下图是根据各种 GPU 在亚马逊、eBay 上的价格和上述性能排行榜算出的「每一美元的 GPU 性能

最低0.47元/天解锁文章

weixin_39968861

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉

公众号关注“Python遇见机器学习”设为“星标”，第一时间知晓最新干货~本文转载自机器之心众所周知，深度学习是一个很吃算力的领域，所以，GPU 选得好不好直接决定了你的炼丹体验。那么，哪些指标是你在买 GPU 时应该重视的呢？RAM、core 还是 tensor core？如何做出一个高性价比的选择？文本将重点讨论这些问题，同时指出一些选购误区。选择 GPU 时你需要知道的东西在选购...
复制链接

扫一扫