LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

最新推荐文章于 2024-06-20 13:24:35 发布

我什么都不懂zvz

最新推荐文章于 2024-06-20 13:24:35 发布

阅读量974

点赞数 22

分类专栏：生成模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Je1zvz/article/details/136559447

版权

生成模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

TOC

1 前言
2 方法
- 2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES

1 前言

1) 提出背景
大模型时代，通常参数都是上亿级别的，若对于每个具体任务都要去对大模型进行全局微调，那么算力和资源的浪费是巨大的。

根据流形学习思想，对于数据有用的特征通常集中于低维流形区域。我们想去微调，实际上只是让部分特征的权值更大而已，而这部分特征也是低维的，我们没有必要小题大做将整个模型的参数都动一遍。

鉴于此思想，提出了LoRA（Low - Rank Adaptation), 既冻结住预训练好的大模型，插入可训练低维压缩矩阵到每一层（本文是插入到transformer层）。我们仅仅去微调插入的可学习矩阵，这样既可以显著降低需要微调的参数量，同时也不会增加额外的推理时间。

2 方法

在这里插入图片描述

2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES

对于整个预训练大模型可以看作是 $W_0^{d\times k}$ ，既输入是一个 $d$ 维tensor，输出一个 $k$ 维tensor；
对于新增的矩阵， $A^{d\times r}$ ， $B^{r\times k}$ ，其中 $r$ 就是low rank， $r << min (d, k)$ 。那么对于low rank matric，可以将整个视为 $\Delta W^{d\times k}$
预训练模型的基础上加上LoRa的模型可以视为： $W=W_0+\Delta W$ ,最终输出维 $h=(W_0+\Delta W)x$
其中对于 $A$ 用随机高斯噪声去初始化，对于 $B$ 将其设置为全0，这样做在刚开始的时候，也就不会对模型输出有啥影响（避免减少引入不必要的噪声，一开始随机初始化的值都是噪声）

LoRa还有如下优点：

通过如此微调，可以近似是在微调整个预训练大模型
减小了微调的参数量
没有增加额外的推理时间（由上面可以看到，并没有啥额外的串行操作）
并且可以将 $W$ 减去 $\Delta W_1$ ，在重新训练一个 $\Delta W_2$ ，在进行相加就可以得到新的微调模型，方便快捷。

我什么都不懂zvz

关注

22
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。