一步一步理解大模型：激活检查点技术

最新推荐文章于 2025-03-10 18:57:57 发布

chattyfish

最新推荐文章于 2025-03-10 18:57:57 发布

阅读量3.4k

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/chattyfish/article/details/131824740

版权

激活检查点（Activation Checkpointing）是一种用于优化深度学习模型训练的技术，它可以在内存使用和计算效率之间进行权衡，以在有限的硬件资源下训练更大的模型。

在深度学习模型的训练过程中，前向传播会计算并存储每一层的激活值，这些激活值在后向传播时被用来计算梯度。然而，对于深度很大的模型，这种方式可能会导致内存溢出，因为需要存储大量的激活值。

激活检查点技术通过在前向传播过程中只存储一部分（而不是全部）的激活值来解决这个问题。对于没有存储的激活值，如果在后向传播过程中需要它们，就重新计算这些值。这种方法可以显著减少内存使用，但是会增加一些计算开销，因为需要重新计算一些激活值。

这种技术在训练大型模型（特别是在内存有限的设备上）时非常有用。例如，微软的深度速度优化库 DeepSpeed 就使用了激活检查点技术来实现在单个GPU上训练数十亿参数的模型。

这是微软DeepSpeed库的位置：

GitHub - microsoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

具体而言，微软的DeepSpeed在模型训练的AP

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型公开可用的模型检查点或 API

weixin_43961909的博客

05-03

1451

众所周知，大模型预训练是一项对计算资源要求极高的任务。因此，经过预训练的公开模型检查点（Model Checkpoint）对于推动大语言模型技术的渐进式发展起到了至关重要的作用。得益于学术界和工业界的共同努力，目前开源社区已经积累了大量的模型检查点资源，用户可以根据自身研究或开发需求，灵活选择并下载使用这些检查点。此外，对于那些仅需利用模型进行解码生成的用户而言，商业公司提供的闭源模型的 API 接口也是一种便捷的选择。这些接口为用户提供了与模型进行交互的渠道，而无需关心模型内部的复杂结构和训练过程

多模态大模型：技术原理与实战在LLM时代，对软件研发的更多思考————从软件 1.0 迈向软件 2.0 时代

AI天才研究院

06-29

1442

软件1.0 vs 软件2.0 - **软件1.0**：传统的软件开发方法，通过人工编写明确的**程序逻辑和规则**来实现功能。 - **软件2.0**：利用AI和机器学习技术，通过**训练模型来"学习"如何执行任务，而不是显式编程**。在这种范式下，软件的行为更多地**由数据和学习算法决定，而不是固定的规则。**

参与评论您还未登录，请先登录后发表或查看评论

PyTorch 节省显存技巧：Activation Checkpointing

kebijuelun的博客

01-01

3611

本文介绍了 PyTorch 中的激活检查点技术，旨在减小内存占用，同时提供更多计算资源。其中详细讨论了 PyTorch 中的自动求导机制，以及两种激活检查点的实现方式：可重新进入（reentrant）和不可重新进入（non-reentrant）。特别关注了非可重新进入版本的新特性，包括嵌套检查点、在检查点内调用 .grad()/.backward() 的支持、非确定性检查和调试性的改进、在指定 retain_graph 时的内存节省等。同时，还介绍了可重新进入变体的实现方式，并提供了简单的用法示例。

AI大模型超强总结：9个大模型评估指标，看到就是赚到！！

最新发布

bugyinyin的博客

03-10

626

在进行模型应用时，关注的指标有很大的区别，根据关注的指标做机器的缩扩容，和模型压缩量化。那么，模型的指标一般包括时延、吞吐量、参数量、激活值、MAC、FLOP、FLOPS、OP、OPS

大模型高效训练基础知识：梯度检查点（Gradient Checkpointing）

Steve Wang's blog

07-08

9649

前向传播过程中计算节点的激活值并保存，计算下一个节点完成后丢弃中间节点的激活值，反向传播时如果有保存下来的梯度就直接使用，如果没有就使用保存下来的前一个节点的梯度重新计算当前节点的梯度再使用。

大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope

一起来研究langchain和langchain-chatchat

06-23

5070

之前学习的过程中我们的模型应用可以跑起来了，那么在这个过程中我们是按官方的demo来学习编写的，有些地方只会用，但是并没有深入理解。现在我们一起来学习一些大数据的基础概念，Checkpoint、PyTorch、 Transformers、ModelScopeTensorFlow 是由 Google Brain 团队开发的开源深度学习框架。自 2015 年发布以来，它已经成为机器学习和深度学习社区中广泛使用的工具之一。TensorFlow 适用于从研究到生产的广泛应用场景，并支持多种编程语言。

AI大模型LLM微调技术—Activation Checkpointing

python12345678_的博客

12-06

1121

Activation Checkpointing是一种优化内存使用的技术，通过在训练过程中只存储关键层的激活而不是所有层的激活来减少内存需求。这使得可以在有限的内存资源下训练更大的模型或使用更大的批量大小。虽然这种方法可以显著减少内存占用，但它也需要在反向传递期间重新计算未存储的激活，从而增加了计算开销和可能的训练时间。框架如PyTorch提供了对这种技术的支持，使其实现更为简便。

农业大模型：关键技术、应用分析与发展方向

python122_的博客

05-31

3028

结论/展望］

一篇文章学会大模型【魔搭社区教程】【本地部署通义Qwen2大模型：配置+微调+部署，带你训练自己的行业大模型！】【源代码】【已经解决天坑】【程序员猫爪】

程序员猫爪

12-25

2185

一篇文章学会大模型【魔搭社区教程】【程序员猫爪】【本地部署通义Qwen2大模型：配置+微调+部署，带你训练自己的行业大模型！】【已经解决天坑】

【从零开始大模型开发与微调】AI 人工智能大语言模型 LLM：语言与思维——实践的融合

AI天才研究院

07-04

2818

在人工智能领域，大语言模型（Large Language Models, LLMs）已经取得了令人瞩目的成就。这些模型基于深度学习，通过在大量文本数据上预训练学习语言知识，被广泛应用于各种自然语言处理（NLP）任务，如图像描述、对话系统、翻译、摘要生成等。但这些模型的性能和表现，特别是其对语言和思维的理解，仍存在诸多困惑和疑问。大语言模型（LLMs）：指基于深度学习技术，通过在大量文本数据上预训练学习语言知识，能够理解和生成自然语言的大规模模型。自监督学习。

checkpoint 大模型、VAE、LoRA、Embedding、Controlnet这些是什么模型

m0_57448314的博客

03-27

4088

VAE 通过最大化重建数据的概率来学习数据的潜在分布。3. LoRA：低秩适配(Low-Rank Adaptation,LoRA)是一种用于迁移学习的方法，它允许在新任务上微调预训练模型，同时保持原始预训练模型的不变。LoRA 通过在预训练模型的输出和任务特定模型的输入之间引入一个低秩适配矩阵来实现这一点，从而最小化对原始预训练模型的影响。1. Checkpoint 大模型：Checkpoint 大模型是一种深度学习模型，通过将模型参数保存到磁盘上并随时恢复它们来避免重新训练模型的昂贵成本和时间。

大语言模型的工程技巧（四）——梯度检查点

LLM学堂

05-21

1193

本文将讨论如何利用梯度检查点算法来减少模型在训练时候（更准确地说是运行反向传播算法时）的内存开支。这在训练超大规模的模型时会用到。

ICML 2024 | 大模型Checkpoint极致压缩，精度无损存储降低70倍

Paper weekly

06-30

644

©作者 |陈醒濠单位 |华为诺亚方舟实验室大型语言模型最近成为人工智能领域的研究热点，然而它们的训练过程耗费巨大的计算和存储资源。因此，高效压缩存储模型的checkpoint文件显得尤为关键。我们提出了一种创新的模型 checkpoint 压缩方案（ExCP），该方案能够在保持性能几乎不受损失的前提下，显著降低训练过程中的存储开销。首先，我们通过计算相邻 checkpoint 的残差值来捕获关...

在深度学习中，什么是模型检查点？

qq_34425255的博客

05-18

1098

通常情况下,我们会在训练过程的某些周期(epoch)或者在验证集性能提升时保存模型检查点。总之,模型检查点是深度学习中非常重要的概念,它确保了训练过程的可重复性和模型部署的灵活性。在深度学习中,模型检查点(Checkpoint)是指。

2024-05-09 问AI: 在深度学习中，什么是模型检查点？

baidu_24377669的博客

05-09

1352

在深度学习中，“模型检查点”（Model Checkpoint）是指训练过程中的一个保存点，它包含了模型在那一特定时刻的权重、配置和优化器的状态等信息。通常，模型检查点会包括除了模型参数之外的其他信息，如学习率、优化器的状态等，以便在恢复训练时能够保持这些状态，确保训练过程的连续性。在实际应用中，模型检查点还可以用于分布式训练，使得不同节点上的训练可以无缝连接，共同推进模型的训练进程。模型检查点的主要作用是在训练过程中定期保存模型的状态，以便在必要时可以恢复训练，避免从头开始重新训练。

大模型训练之计算量和内存优化篇------混合精度/量化/剪枝/知识蒸馏/FSDP&cpu offload/Gradient Checkpointing

weixin_36378508的博客

05-24

4854

大模型训练显存和计算量优化

大模型训练避坑指南

张伟的专栏

04-15

1153

原文：https://baijiahao.baidu.com/s?id=1760862056681517207&wfr=spider&for=pc自 2022 年 11 月底 ChatGPT 发布以来，大模型的热度持续发酵，相信高屋建瓴的讨论大家已经看了很多了。今天我们选择从实用角度，分别就算力、算法、工程、数据和团队等方向讨论了训练一个千亿参数量级的大语言模型和ChatGPT需要些什么，希望能够给正在尝试拥抱大模型的业务决策者和技术人员一些有价值的参考。主持人：Kiwi，AI 领域投资人本期嘉宾介绍：冠叔

大模型学习笔记

qq_54517101的博客

10-21

1042

对于teacher force，是指在每一轮预测时，不使用上一轮预测的输出，而强制使用正确的单词，过这样的方法可以有效的避免因中间预测错误而对后续序列的预测，从而加快训练速度，而Transformer采用这个方法，为并行化训练提供了可能，因为每个时刻的输入不再依赖上一时刻的输出，而是依赖正确的样本，而正确的样本在训练集中已经全量提供了。具体来说，该缩放操作是将点乘结果除以一个值，这个值是输入向量的维度的平方根，即dk的平方根，其中dk表示每个向量的维度。：在ALBERT中，所有层的参数都是共享的。

啤酒类型预测模型：自定义神经网络与Web应用集成

整个流程中，从模型的设计、训练到最终的Web部署，每一步都至关重要，需要开发者具备跨领域的技术能力。通过深入理解这些知识点，能够帮助我们更好地构建和优化预测系统，为用户提供更加准确和高效的服务。