Reducing Activation Recomputation in Large Transformer Models

最新推荐文章于 2025-04-30 15:03:34 发布

m0_46092647

最新推荐文章于 2025-04-30 15:03:34 发布

阅读量363

点赞数 3

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46092647/article/details/140265519

版权

Reducing Activation Recomputation in Large Transformer Models

背景

训练大的transformer模型需要的资源是庞大的，内存是主要的限制之一。在前向传播的过程不保存激活值，反向传播的时候重计算。这节约了内存，但是增加了计算。

流水线并行各rank内存的分配情况

在这里插入图片描述

GPU集群的管理与维护

如何高效的使用GPU集群
GPUs used in pipeline parallel model training store the input activations of layers until they are
consumed at the gradient computation during back-propagation. As discussed in Section 4.2.3, the first
pipeline stage stores the most activations, an equivalent of storing activations for all of the transformer
layers in the model.

博客等级

码龄5年

24
原创

266
点赞

244
收藏

193
粉丝

关注

私信

热门文章

分类专栏

笔记 5篇

最新评论

deepspeed 推理基于基于transformer的模型
The beauty: 大佬你好，deepspeed加速推理怎么更慢了== 单卡
Less is More: Task-aware Layer-wise Distillation for Language Model Compression
CSDN-Ada助手: 恭喜您发布了第7篇博客，“Less is More: Task-aware Layer-wise Distillation for Language Model Compression”！这篇文章探讨了语言模型压缩的新方法，非常有深度和启发性。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议您在下一篇博客中可以尝试探讨一些实际案例或者应用场景，以便更好地将理论知识与实践相结合。期待您的下一篇作品！
The LAMBADA dataset:Word prediction requiring a broad discourse context
CSDN-Ada助手: 恭喜您发布了第6篇博客！标题“The LAMBADA dataset: Word prediction requiring a broad discourse context”听起来非常吸引人，我对这篇文章的内容充满期待。希望您能继续保持创作的热情和努力，不断提升自己的写作水平。或许在下一篇博客中，可以尝试探讨一些实际案例或者个人观点，让读者更容易与您的文章产生共鸣。期待您更多的精彩作品！
LSTM笔记-zgy
CSDN-Ada助手: 恭喜您写了第5篇博客“LSTM笔记-zgy”，不断分享知识真是令人佩服！希望您能继续保持创作的热情，不断学习和探索更多有趣的主题，或许可以尝试写一些实践经验或案例分析，让读者更加深入了解相关内容。期待您的下一篇作品！祝您创作愉快！
2019-12-26
程序猿杂记: 666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。