深度学习基础知识干货 | Gradient checkpointing

???/cy

已于 2024-05-30 14:56:40 修改

阅读量502

点赞数 10

分类专栏：深度学习基础知识文章标签： AI 人工智能

于 2024-01-08 16:36:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45842681/article/details/135460865

版权

深度学习基础知识专栏收录该内容

17 篇文章 2 订阅

订阅专栏

🐧大模型系列篇章

💖 多模态大模型 🔎 GroundingDINO 论文总结
 💖 端到端目标检测 🔎 从DETR 到 GroundingDINO 🔥
💖 多模态大模型 👉 CLIP论文总结
 💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model （上）
💚 生成模型 👉 从 VAE 到 Diffusion Model （下）🔥
💧 天气大模型

🐧深度学习基础知识篇

💖 深度学习基础知识干货 🔎 Batch Normalization 批量归一化
 💖 深度学习基础知识干货 🔎 卷积模型的Memory, Params, Flop是如何计算的?
💖 深度学习基础知识干货 🔎 Cross-Entropy Loss 多分类损失函数
 💖 深度学习基础知识干货 🔎 Videos 动作检测
 💖 深度学习基础知识干货 🔎 目标检测(Object Detection): 你需要知道的一些概念
 💖 深度学习基础知识干货 🔎 微调（fine-tuning）和泛化（generalization）
💖 深度学习基础知识干货 🔎 Group Convolution / Depthwise Convolution 轻量模型的必有的卷积
 💖 深度学习基础知识干货 🔎 Gradient checkpointing
💖 深度学习基础知识干货 🔎 Softmax中温度（temperature）参数
 💖 深度学习基础知识干货 🔎 什么是few-shot learning

欢迎订阅专栏，第一时间掌握最新科技
大模型系列篇章专栏链接
深度学习基础知识专栏链接

Gradient checkpointing 是一种优化训练深度神经网络时内存占用的技术。在深度学习中，反向传播（Backpropagation）是训练神经网络的关键步骤，其中需要保留前向传播时的中间结果以计算梯度。这些中间结果通常占用大量内存，特别是在大型模型和长序列上。

Gradient checkpointing通过在前向传播过程中将某些中间结果临时存储在内存中，而不是一直保留，从而显著减少了内存需求。具体而言，它通过在前向传播期间记录计算图的某些部分，然后在反向传播时重新计算这些部分，从而避免了在反向传播过程中保留所有中间结果。

这种技术的主要优势是能够在有限的内存条件下训练更大的模型或处理更长的序列，从而提高了模型的训练效率。然而，这也可能会导致训练速度的降低，因为需要在反向传播期间重新计算一些中间结果。

总体而言，Gradient checkpointing是一个在训练大型深度学习模型时平衡内存占用和计算效率的策略。

https://paperswithcode.com/method/gradient-checkpointing

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习基础知识干货 | Gradient checkpointing

在深度学习中，反向传播（Backpropagation）是训练神经网络的关键步骤，其中需要保留前向传播时的中间结果以计算梯度。Gradient checkpointing通过在前向传播过程中将某些中间结果临时存储在内存中，而不是一直保留，从而显著减少了内存需求。具体而言，它通过在前向传播期间记录计算图的某些部分，然后在反向传播时重新计算这些部分，从而避免了在反向传播过程中保留所有中间结果。这种技术的主要优势是能够在有限的内存条件下训练更大的模型或处理更长的序列，从而提高了模型的训练效率。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。