14 大模型微调-KitTrain

汀沿河

已于 2024-09-03 09:36:49 修改

阅读量739

点赞数 10

分类专栏： # 9transformers 文章标签：人工智能

于 2024-09-02 19:29:21 首次发布

本文链接：https://blog.csdn.net/qq_28611929/article/details/141826680

版权

9transformers 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

`1 介绍`

如何降低占用的显存：

梯度累计：在一个完整的模型更新周期（epoch）中，将多个小批量（mini-batches）的数据的梯度进行累加，然后在一个较大的批量（累积步数）之后进行一次模型参数更新。
梯度检查点；
优化器；
冻结模型参数；
参数高校微调；

但是模型本身的参数并无改变！

之前提到的大模型微调技术都是冻结原模型的参数，然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正：比如4个字节的单精度调整为2个字节的；K-bit 训练是一种优化技术，主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度（如8位或更低）来存储和计算模型的权重，从而降低内存需求和加速训练过程。在深度学习领域，常见的低精度训练技术包括8位量化训练（8-bit training）和混合精度训练（Mixed Precision Training）。

1.1 K-bit 训练的主要形式

8位量化训练（8-bit Training）：
- 在8位量化训练中，模型的权重被量化为8位整数（int8），从而大幅减少内存占用。
- 为了保持训练的准确性，通常会在前向传播时将量化后的权重反量化回高精度，然后在反向传播时使用高精度梯度进行更新。
混合精度训练（Mixed Precision Training）：
- 混合精度训练是一种使用不同精度表示模型的不同部分的技术。
- 通常情况下，模型的权重使用16位浮点数（FP16）表示，而梯度累积和优化器状态使用32位浮点数（FP32）表示。
- 这种技术已经在许多现代深度学习框架中得到广泛应用，如NVIDIA的 Apex 库。