1、本质上,还是反向传播算法
在前向过程中,代入A、B的参数算出损失的
在反向过程,根据损失求导算法A,B参数的梯度,然后更新参数
2、核心公式
通过一个低秩增量来调整预训练模型的原始权重
,而不是直接修改
本身。它的核心公式可以简单写成:
W:预训练原始权重(冻结,不更新)
:引入的低秩增量(dxk)
A:dxr矩阵,rd,k
B: rxk矩阵
LoRA有哪些改进版本?
(1)LoRA+
目标:加速训练
基础:标准LoRA的升级
改进点:对A和B设置不同学习率,B的学习率远高于A的学习率
理论依据: 靠近输出的权重对梯度更敏感,需要大调整;输入侧应更稳定
优点:训练速度提升(最高达2倍),性能比标准LoRA高1%~3%
总结:
LoRA作为一种高效的大模型微调技术,通过低秩矩阵分解大幅降低参数量和计算资源要求,同时保持接近全微调的性能。

被折叠的 条评论
为什么被折叠?



