GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

m0_70960708

于 2024-08-05 08:09:47 发布

阅读量3

点赞数

分类专栏：笔记文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70960708/article/details/140916799

版权

笔记专栏收录该内容

106 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

这篇文章可以帮助我们了解 GPU 对深度学习性能的多个影响因素，从而帮助我们评估、选用 GPU。本文将按照 GPU 各组件的重要程度顺序来进行介绍。Tensor Core（张量计算核心）是最重要的因素，其次是 GPU 的内存带宽和缓存层次结构，最后是 GPU 的 FLOPS。

目录

01 Tensor Core（张量计算核心）

1.1 在没有张量计算核心的情况下进行矩阵乘法运算

1.2 使用张量计算核心进行矩阵乘法运算

1.3 使用张量计算核心和异步拷贝（RTX 30/RTX 40）以及TMA（H100）进行矩阵乘法运算

02 内存带宽

03 二级缓存/共享内存/一级缓存/寄存器

01 Tensor Core（张量计算核心）
Tensor Core（张量计算核心）是一种能执行高效矩阵乘法运算的微小核心。由于矩阵乘法是任何深度神经网络中最耗费计算资源的部分，因此Tensor Core（张量计算核心）非常有用。它的功能非常强大，强大到我不推荐使用任何没有Tensor Core（张量计算核心）的 GPU。

了解它们的工作原理，有助于理解这些特有的矩阵乘法计算单元（computational units）的重要性。下面以一个简单的 A*B=C 矩阵乘法为例（其中所有矩阵的大小都是 32×32），展示了有张量计算核心和没有张量计算核心的计算模式。这只是一个简化后的例子，并不是高性能矩阵乘法核心的精确编写方式，但它包含了所有基本要素。CUDA 程序员会将此作为第一份 “草稿”，然后利用双缓冲（double buffering）、寄存器优化（register

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

以一个简单的 A*B=C 矩阵乘法为例（其中每个矩阵的大小都是 32×32），我们会将反复访问的数据加载到共享内存（shared memory）中，这样做的主要原因是共享内存的延迟约为全局内存的六分之一（200 个周期 vs 34 个周期）。例如，在训练规模为GPT-3级别的大型神经网络时使用了大矩阵（由于矩阵越大，对张量计算核心进行运算越有利），即便是这种情况下，张量计算核心的利用率约为45-65％，这说明即使是训练大型神经网络，张量计算核心也有约 50% 的时间处于闲置状态。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。