最近和大模型一起爆火的,还有大模型的微调方法。这类方法只用很少的数据,就能让大模型在原本表现没那么好的下游任务中“脱颖而出”,成为这个任务的专家。而其中最火的大模型微调方法,又要属LoRA。
1.LoRA简介
1.1 LoRA简介
先从最近大火的LoRA(《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGEMODELS》)说起。
该文章在ICLR2022中提出,说的是利用低秩适配(low-rankadaptation)的方法,可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。
LoRA是怎么去微调适配下游任务的?
流程很简单,LoRA利用对应下游任务的数据,只通过训练新加部分参数来适配下游任务。
而当训练好新的参数后,利用重参的方式,将新参数和老的模型参数合并,这样既能在新任务上到达fine-tune整个模型的效果,又不会在推断的时候增加推断的耗时。
LoRA的示意图如下:
图中蓝色部分为预训练好的模型参数,LoRA在预训练好的模型结构旁边加入了A和B两个结构,这两个结构的参数分别初始化为高斯分布和0,那么在训练刚开始时附加的参数就是0。
A的输入维度和B的输出维度分别与原始模型的输入输出维度相同,而A的输出维度和B的输入维度是一个远小于原始模型输入输出维度的值,这也就是low-rank的体现(有点类似Resnet的结构),这样做就可以极大地减少待训练的参数了。
在训练时只更新A、B的参数,预训练好的模型参数是固定不变的。在推断时可以利用重参数(reparametrization)思想,将AB与W合并,这样就不会在推断时引入额外的计算了。
而且对于不同的下游任务,只需要在预训练模型基础上重新训练AB就可以了,这样也能加快大模型的训练节奏。
1.2 LoRA基础原理
大语言模型中包含大量的线性变换层,其中参数矩阵的维度通常很高。研究人员发现模型在针对特定任务进行适配时,参数矩阵往往 是过参数化(Over-parametrized)的,其存在一个较低的内在秩。为了解决这一问 题,LoRA 提出在预训练模型的参数矩阵上添加低秩分解矩阵来近似每层的参数更新,从而减少适配下游任务所需要训练的参数。给定一个参数矩阵 𝑾,其 更新过程可以一般性地表达为以下形式:
其中,𝑾0 是原始参数矩阵,Δ𝑾 是更新的梯度矩阵。LoRA 的基本思想是冻结原始矩阵 𝑾0 ∈ R 𝐻×𝐻,通过低秩分解矩阵 𝑨 ∈ R 𝐻×𝑅 和 𝑩 ∈ R 𝐻×𝑅 来近似参数更新 矩阵 Δ𝑾 = 𝑨 · 𝑩 ⊺,其中 𝑅 ≪ 𝐻 是减小后的秩。
在微调期间,原始的矩阵参数 𝑾0 不会被更新,低秩分解矩阵 𝑨 和 𝑩 则是可训练参数用于适配下游任务。在前向传 播过程中,原始计算中间状态 𝒉 = 𝑾0 · 𝒙 的公式修改为:
𝒉 = 𝑾0 · 𝒙 + 𝑨 · 𝑩 ⊺ · 𝒙
在训练完成后,进一步将原始参数矩阵 𝑾0 和训练得到的权重 𝑨 和 𝑩 进行合并: 𝑾 = 𝑾0 + 𝑨 · 𝑩 ⊺,得到更新后的参数矩阵。因此,LoRA 微调得到的模型在解码过 程中不会增加额外的开销。
1.3LoRA相关论文
由于本文不具体介绍LoRA,所以详细信息可以查看LoRA原文。我们只需要知道LoRA文章后续的实验已经论证该方法的有效性。
那么进一步思考,为什么LoRA的这种思路能work得不错呢?
答案就是接下来要讲的本征维度(Intrinsic dimension)了。
这点LoRA原文也提到过,该文章灵感来源于下面两篇文章:
1、MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES,发表在ICLR2018,为了方便接下来该论文称为【论文1】
2、INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGEMODEL FINE-TUNING,发表在ACL2021,为了方便接下来该论文称为【论文2】
2.本征维度是什么?
本征维度的概念在【论文1】中提出。
训练一个神经网络往往包含如下几步:
1、对于一个给定的数据集,先设计网络的结构和选择对应的loss2、对网络中的参数进行随机的初始化3、训练网络使得loss越来越低
而训练阶段可以认为是在一个固定的目标图(objective landscape)上,寻找出有效的路径。
这里解释一下为什么是固定的目标图。因为在数据集和网络结构固定下来后,待优化的问题就已经定义好了,所以目标图也就是确定的了。
如下图所示:
那么对于一个参数量为D的模型
我们训练该模型,也就意味着在D维空间上寻找有效的解。文章认为D可能是冗余的,可能实际上只需要优化其中的d个参数就可以找到一个有效的解。
用公式表示如下:
其中
表示D维的优化参数,
表示随机初始化的一个参数并且在训练时是不进行更新的,P是一个随机初始化的D×d大小的矩阵且训练时也不进行更新
表示待优化的d维参数。
也就是说可以在训练网络时只更新d维参数,就可以达到该网络应有的效果。那么这个d就是所谓的该模型的本征维度。
这里讲完可能还有点晕,我们看一下如下这张图:
上图中,蓝色部分为初始化好的网络参数
绿色为
红色为
网络训练的时候只训练红色部分,其它参数都是固定的。d就是本征维度。
上面讲的只更新d维参数,让网络达到应有的效果,那么什么应有的效果呢?文章定义,在只更新d维参数的情况下,网络效果达到训练原始模型时效果的90%时,那么就认为达到了“应有的效果”,并且d就为本征维度。
例如在做mnist这个数字分类任务时,如果原始模型精度能到0.9,那么在只更新d维参数的时候,精度能够达到90%×0.9=0.81,就认为这时候的d为本征维度记为。