深度学习加速----优化深度学习系统的第一性原理（转载）

最新推荐文章于 2024-05-09 16:10:48 发布

DS_HY

最新推荐文章于 2024-05-09 16:10:48 发布

阅读量338

点赞数

分类专栏：机器学习文章标签：深度学习

原文链接：https://horace.io/brrr_intro.html

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

如何加速深度学习的计算过程，是一个困扰大家的问题，刚刚看到一篇Horace He（Meta工程师，2020年本科毕业于康奈尔）新分享的文章，觉得言简意赅，也可以参考：机器之心的翻译

他将深度学习体系的效率理解为3个不同的组成部分。
1. 计算: 花费在GPU计算实际浮点运算(FLOPS)上的时间
2. 内存: 在GPU内传输张量所花费的时间
3. 开销: 其他一切

就像训练ML模型一样，了解所处的状态可以让我们缩小到最重要的优化范围。例如，如果你把所有的时间都花在内存传输上(即你处于内存带宽限制的状态下)，那么增加GPU的FLOPS并没有什么帮助。另一方面，如果你把所有的时间都花在执行大的软块系统上(例如，一个计算约束系统)，那么重写你的模型逻辑到c++中来减少开销是没有帮助的。

如果想要加速你的深度学习系统，最重要的事情是了解你的模型中的瓶颈是什么。这个瓶颈决定了加速系统的合适方式。最终他总结了如下内容：

性能瓶颈类型	可能的解决方案
开销型	Tracing, Operator Fusion, 不要使用 Python, 用真正的JIT :^)
内存带宽型	Operator Fusion
计算型	使用Tensor Cores, 多给Nvidia钱买卡吧

对于这种加速是我非常感兴趣的一个领域之一，以上的具体方法可以等有空了再进行详细的补充和学习吧。

DS_HY

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习加速----优化深度学习系统的第一性原理（转载）

如何加速深度学习的计算过程，是一个困扰大家的问题，刚刚看到一篇Horace He（Meta工程师，2020年本科毕业于康奈尔）新分享的文章，觉得言简意赅，也可以参考：机器之心的翻译他将深度学习体系的效率理解为3个不同的组成部分。1. 计算: 花费在GPU计算实际浮点运算(FLOPS)上的时间2. 内存: 在GPU内传输张量所花费的时间3. 开销: 其他一切就像训练ML模型一样，了解所处的状态可以让我们缩小到最重要的优化范围。例如，如果你把所有的时间都花在内存传输上(即你处于内存带宽限制的状态下)
复制链接

扫一扫