大模型微调训练从理论到实践（一）基础概念、大模型理论最小计算量、训练内存需求分析

Code1994

于 2024-09-26 08:15:00 发布

阅读量758

点赞数 22

文章标签：数据挖掘机器学习人工智能大模型 AI大模型 LLM 大模型微调

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Code1994/article/details/142527613

版权

一、引言

今天我们来深入探讨一下大模型微调这个话题。你可能听说过，微调大模型就是点点鼠标，下一步下一步就行了，对吧？但是，如果在实际项目中真的要你去微调一个大模型，那可就不是这么简单了。

想象一下，你接到了一个任务，需要用大模型来解决问题。这时候，你脑子里可能会冒出很多问题：现有的大模型能直接用吗？如果不行，需要什么规模的模型来训练？需要多少显卡和数据？你可能会想，"越多越好"呗。但是，这么回答可不够专业。

接下来，我们就一步步来看看，如何科学地回答这些问题。

二、基础概念

在我们深入讨论之前，先来了解一些基本概念：

FLOPS（注意全大写）：这是"Floating Point Operations Per Second"的缩写，意思是每秒浮点运算次数。我们用它来衡量硬件的性能。比如，当我们说一个GPU有100 TFLOPS的性能时，意味着它每秒可以进行100万亿次浮点运算。
FLOPs（注意大小写）：这是"Floating Point Operations"的缩写，指的是浮点运算次数。我们用它来衡量算法或模型的复杂度。例如，当我们说一个模型需要1万亿FLOPs来训练时，意味着整个训练过程需要进行1万亿次浮点运算。

理解这两个概念的区别很重要，因为它们将贯穿我们接下来的讨论。

三、大模型理论最小计算量

当我们开始规划大模型训练时，首先需要估算理论最小计算量。这个计算量可以通过下面的公式来估算：

FLOPs = 6 * 模型的参数量 * 训练数据的token数

你可能会问，为什么是6呢？这个6代表了每个token在模型正向传播和反向传播时需要的基本运算次数。具体来说：

正向传播：每个参数大约需要2次浮点运算（一次乘法，一次加法）
反向传播：计算梯度时，每个参数也需要约2次浮点运算
参数更新：更新每个参数又需要约2次浮点运算

所以，2 + 2 + 2 = 6。

举个例子，假设我们有一个10亿参数的模型，要用100亿token的数据来训练，那么理论最小计算量就是：

6 * 10^9 * 10^10 = 6 * 10^19 FLOPs

这个数字看起来很大，对吧？但别担心，我们接下来会讨论如何将这个理论计算量转化为实际的训练时间估计。

四、训练内存需求分析

了解了计算量，我们还需要考虑内存需求。在训练大模型时，内存主要用于以下几个方面：

1. 模型参数（float32）：每个参数需要4字节的存储空间。所以，模型参数所需内存 = 模型参数量（B） * 4GB

2. 反向梯度（float32）：反向传播时，我们需要为每个参数存储其梯度。这部分内存需求等同于参数量。反向梯度所需内存 = 模型参数量（B） * 4GB

3. 优化器参数：如果我们使用Adam优化器（这是很常见的选择），每个参数还需要额外的内存。为什么呢？因为Adam需要使用32位浮点数来进行精确计算，否则使用16位浮点数可能导致误差累积，模型难以收敂。

具体来说，每个参数需要：

所以，Adam优化器所需内存 = 模型参数量（B） * 12GB

如果使用像SGD这样的简单优化器，可以省掉variance的存储，只需要8字节。

4字节的32位版本（正向传播用16位，优化时用32位，这叫做mixed-precision）
4字节的momentum
4字节的variance

4. 正向传播状态：在极限情况下，我们可以选择每次都重新计算中间状态，而不是存储它们。这种方法叫做激活重计算（activation recomputation）。虽然会增加计算量，但可以大大减少内存使用。

不过，需要注意的是，正向传播的中间状态（activation）数量与batch size成正比。batch size越大，每次读取模型参数能做的计算就越多，这样对GPU内存带宽的压力就越小。但是，正向传播的中间状态数量也会相应增加，可能使GPU内存容量成为瓶颈。

假设我们有一个10亿参数的模型，使用Adam优化器，那么最小训练内存需求大约是：

(4GB + 4GB + 12GB) * 10 = 200GB

这就是为什么训练大模型通常需要多卡甚至多机并行的原因。

五、如何学习大模型？

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

如有侵权，请联系删除

关注

22
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。