关于大模型微调那些事

最新推荐文章于 2024-08-28 16:14:15 发布

Python程序员罗宾

最新推荐文章于 2024-08-28 16:14:15 发布

阅读量595

点赞数 10

文章标签： python 人工智能算法

本文链接：https://blog.csdn.net/aolan123/article/details/139862578

版权

什么是模型的微调

模型的微调本质上是因为有些时候发现模型在某一个方面能力不够，所以我们通过一些训练的方法，希望把这个模型做一个更新，那更新后的模型在某一个方面上希望它的能力会提升，本质上是对模型的一个改动。

我们通过数据再基于训练的方式把原有的模型把它改造成新的模型。另外模型的改动本质上是对这个模型参数的改动，所以模型背后实际上是由一堆的参数来构成的，也就是从原有的参数变成新的参数，而且一个大模型它可能拥有 10 亿的参数，可能千亿的参数，所以参数的数量是非常庞大的。这里的参数我们可以理解为是很多数字的集合，而且这个参数我们通常可以把它组织成矩阵（千亿的参数）。

也就是对于原有的参数我们再加了一个变动的量，我们其实可以得到新的参数，所以我们可以变相地认为通过微调我们要学习的本质上就是这个改动的量，因为我们得到它之后，实际上我们加上原有的参数就可以得到新的模型，归根结底，那我们如何去学习这个变动的量？就是怎么去获得它？实际上我们真正学习的时候，大模型通常是包含可能几百亿甚至千亿的参数的。

学习这个变动的量方式分为两类：

全量的微调：把这里面的每个参数都通过学习的方法把它得出来。

参数高效的模型微调：可以用更少量的资源进行微调

所以简单理解的话，假设我们的模型原来包含是 100 亿的参数，那通过全量微调我们实际上要寻找 100 亿的这类的数字，所以它的复杂度是很高的。

那有没有一种方式我们可以用更少量的资源进行微调呢？那这个方法我们也把它叫做高效的微调的方法，英文叫PEFT(Parameter-efficient Fine-tuning）也称为轻量化微调（Lightweight Fine-tuning）。那其中最常见的一种技术叫LoRa。

讲 LoRa 之前，先普及一下LoRa核心背景，假如我们给张三提了一个任务，就是让他编写一个文章，然后这个文章可能包含 2000 字，然而张三本身他是比较啰嗦的人，所以他在写这种文章的时候通常会包含很多重复性的内容，不够简洁。2000 字虽然看起来是很多，但实际上它传达的内容是比较有限的，所以原本它可以用可能 100字， 200字可以把整个的思想可以表达出来，它偏偏可能用了 2000 多字来写这个文章。

基于这个思想我们可以去怀疑一下模型在训练时学到的这么多的参数是不是也有一些冗余的信息，虽然模型学习时使用了千亿的参数，但是参数传达的信息是非常有限的。如果参数（改动的量）所承载的信息是非常有限的，那实际上我们花了这么多的资源去训练参数，这个事情本质是浪费资源的。

但是我们从微调的本质的角度来讲，我们是真的恰恰希望参数所承载的信息是比较有限的，那这个怎么理解呢？那实际上我们还是回归到微调的本质。

通过微调我们是希望把模型的部分能力放大，但是同时保留大模型的其他的能力。这里改动的量也可以认为就是针对于我们想去提升的那部分的能力，所以这里有一个很重要的点，就是我们不希望把原来的模型改动太多，如果改动太多就意味着什么呢？那很多模型原来具备的比较强的能力消失了，这个我们也把它叫做模型灾难性遗忘。

总体来讲，那我们在微调的时候，我们是希望它具备所承载的信息是非常有限的的一个特性，在这样的一个假设条件下，我们有没有一些方式更加高效地去学出这些参数？我们现在假定想学习的参数，它具备这种特性，简单来看一下具备这种特性的这种数字它有什么样的一些规律。

那打比方，比如我们有这样的参数，对于第一个总共包含 9 个参数，但实际上我们可以很清楚地看到有价值的，就其中的一行。那对于第二个来讲也是类似的，那这里面 224 我们实际上可以通过 112 可以得出来，比如说每个数字我乘 2 我就可以得到224，所以这些我们可以把它称之为叫冗余的信息，所以很显然为了学习 9 个参数，我们没必要把每个参数都要单独的去选出来。这个本质上就是 Lora 的核心思想。

下面我们的问题就变成什么呢？我们要学习的这个参数形态可能是符合这种形式的，我们有没有一种方式可以更加高效地去进行学习？那这时候我们就可以引出 Lora 的概念，然后首先我们定义一个名词叫做矩阵，我们就简单的认为矩阵就是类似于长成这个样子，比如说包含几行几列，在这里我们把要学习的这个矩阵假设设置为W，而且我们知道W本身是一个包含很多参数的矩阵，但是具备这种性质（虽然参数很多，但实际上它所包含的价值是比较有限的）。

然后另外在这里我们要借助于线性代数的一个简单的性质，一个矩阵，如果符合刚才说的这些特性，我们实际上可以把这个矩阵近似的通过两个矩阵的乘积来替代，比如W=A*B。

假设有 100* 100 的矩阵，然后通过这种线性代数的性质可以把它拆解成两个矩阵的乘积，通过线性代数的性质可以把它拆解成两个矩阵的乘积，即W（100* 100）=A（100*k)*B(k*100）这是它的一个性质，所以 k 实际上是可变的一个参数。这里的 k 是可选的。而且 k 恰恰就是跟我们刚才提到的价值是相关的。假如我们觉得这个矩阵的价值没有那么大，也就是它所承载的信息没有那么多，那我可以用更小的 k 来替代。

如果这里的 k 越大，就意味着这里的矩阵所承载的信息量是更大的，因为在这里我们已经假定这个参数它具备一定这种特性，我们可以去选择更小的 k 来近似W，那我们在这里打个比方，如果 k 等于2，那就意味着这个A包含了 100* 2 总共 200 个参数。然后B包含了 2 乘以100，也就是两行 100 列包含了 200 个参数，加在一起总共是 400 个参数。

但这里的W可以看一下，它是 100* 100 的，所以总共包含1万个参数，所以在这里我们很明显的可以看到 400 是1万的4%，就意味着什么呢？假如我们现在的目标是学习W，那 W包含1万个参数，但在这里我们把这个 W 写成了A和B，则乘积的形式，所以学习它，其实在这里等价于我们要学习参数A和参数B，那这里的A和B总共包含了 400 个参数，所以这就意味着什么呢？我们的目标是学习遗忘的参数，但是因为它被近似成了A乘以B 两个新的矩阵，而且它俩加在一起仅仅包含了 400 个参数。

总体来讲，我们通过学习 400 个参数就可以达到我们去学习 w 的目标，那假如 k 等于一，那这个时候A 包含 100 个，B 包含 100 个，所以总共 200 个参数。所以这个时候那我们要学习的参数就变成了原来的2%，大大的降低了，这个就是 Lora 的核心思想。

另外这里的 k 我们把它叫做Rank，所以如果我们觉得这个矩阵所涵盖的信息量很少，我们可以选择比较小的k。如果我觉得它含金量比较大，那可以选择一些更大一点的k，所以这个 k 是可调节的，而且 k 越小的话，那我们所需要学习的参数会变得更少。

而且在 Lora 微调里面我们一般对 k 选择不会太大，比如说我们选个8、16、32，而且在大模型里面这个参数是非常多的，所以参数越多 k 越小，那我们百分比就会变得更小，所以节省我们大量的一个是显存空间，还有就是咱们学习的成本。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Python程序员罗宾

关注

10
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
关于大模型微调那些事

什么是模型的微调模型的微调本质上是因为有，那更新后的模型在某一个方面上希望它的能力会提升，本质上是对模型的一个。我们通过数据再基于训练的方式把原有的模型把它改造成新的模型。另外模型的改动本质上是，所以模型背后实际上是由一堆的参数来构成的，也就是从原有的参数变成新的参数，而且一个大模型它可能拥有 10 亿的参数，可能千亿的参数，所以参数的数量是非常庞大的。这里的参数我们可以理解为是很多数字的集合，而且这个参数我们通常可以把它组织成矩阵（千亿的参数）。也就是对于原有的参数我们再加了一个。
复制链接

扫一扫