🐧大模型系列篇章
💖 多模态大模型 🔎 GroundingDINO 论文总结
💖 端到端目标检测 🔎 从DETR 到 GroundingDINO 🔥
💖 多模态大模型 👉 CLIP论文总结
💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model (上)
💚 生成模型 👉 从 VAE 到 Diffusion Model (下)🔥
💧 天气大模型
🐧深度学习基础知识篇
💖 深度学习基础知识干货 🔎 Batch Normalization 批量归一化
💖 深度学习基础知识干货 🔎 卷积模型的Memory, Params, Flop是如何计算的?
💖 深度学习基础知识干货 🔎 Cross-Entropy Loss 多分类损失函数
💖 深度学习基础知识干货 🔎 Videos 动作检测
💖 深度学习基础知识干货 🔎 目标检测(Object Detection): 你需要知道的一些概念
💖 深度学习基础知识干货 🔎 微调(fine-tuning)和泛化(generalization)
💖 深度学习基础知识干货 🔎 Group Convolution / Depthwise Convolution 轻量模型的必有的卷积
💖 深度学习基础知识干货 🔎 Gradient checkpointing
💖 深度学习基础知识干货 🔎 Softmax中温度(temperature)参数
💖 深度学习基础知识干货 🔎 什么是few-shot learning
欢迎订阅专栏,第一时间掌握最新科技 大模型系列篇章 专栏链接 深度学习基础知识 专栏链接 |
Gradient checkpointing 是一种优化训练深度神经网络时内存占用的技术。在深度学习中,反向传播(Backpropagation)是训练神经网络的关键步骤,其中需要保留前向传播时的中间结果以计算梯度。这些中间结果通常占用大量内存,特别是在大型模型和长序列上。
Gradient checkpointing通过在前向传播过程中将某些中间结果临时存储在内存中,而不是一直保留,从而显著减少了内存需求。具体而言,它通过在前向传播期间记录计算图的某些部分,然后在反向传播时重新计算这些部分,从而避免了在反向传播过程中保留所有中间结果。
这种技术的主要优势是能够在有限的内存条件下训练更大的模型或处理更长的序列,从而提高了模型的训练效率。然而,这也可能会导致训练速度的降低,因为需要在反向传播期间重新计算一些中间结果。
总体而言,Gradient checkpointing是一个在训练大型深度学习模型时平衡内存占用和计算效率的策略。
https://paperswithcode.com/method/gradient-checkpointing