大模型面经：LoRA篇最全总结

Code1994

已于 2024-09-12 20:38:54 修改

阅读量1.6k

点赞数 41

文章标签：深度学习人工智能大模型 ai AI大模型算法 LoRA

于 2024-08-23 14:15:14 首次发布

本文链接：https://blog.csdn.net/Code1994/article/details/141464448

版权

大家的显卡都比较吃紧，LoRA家族越来越壮大，基于基于LoRA出现了各种各样的改进，最近比较火的一个改进版是dora，听大家反馈口碑也不错。

基于PEFT的话用4090 24G显存也可以进行大模型的微调，所以LoRA家族这块还是很有研究和实际落地的潜力。

一、概念

1. 简单介绍一下LoRA
2. LoRA的思路
3. LoRA的特点
4. LoRA的优点
5. LoRA的缺点

二、训练理论

1. LoRA权重是否可以合入原模型？
2. ChatGLM-6B LoRA后的权重多大？
3. LoRA微调方法为啥能加速训练？
4. 如何在已有LoRA模型上继续训练？
5. LoRA这种微调方法和全参数比起来有什么劣势吗？
6. LORA应该作用于Transformer的哪个参数矩阵？
7. LoRA 微调参数量怎么确定？
8. Rank 如何选取？
9. alpha参数如何选取？
10. LoRA 高效微调如何避免过拟合？
11. 哪些因素会影响内存使用？
12. LoRA权重是否可以合并？
13. 是否可以逐层调整LoRA的最优rank？
14. Lora的矩阵怎么初始化？为什么要初始化为全0？

一、概念

1. 简单介绍一下LoRA

通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。实现思想很简单，就是冻结一个预训练模型的矩阵参数，并选择用A和B矩阵来替代，在下游任务时只更新A和B。

2. LoRA的思路

主要思想：在原模型旁边增加一个旁路，通过低秩分解（先降维再升维）来模拟参数的更新量。

训练：原模型固定，只训练降维矩阵A和升维矩阵B。
推理：可将BA加到原参数上，不引入额外的推理延迟。
初始化：A采用高斯分布初始化，B初始化为全0，保证训练开始时旁路为0矩阵。
可插拔式的切换任务：当前任务W0+B1A1，将lora部分减掉，换成B2A2，即可实现任务切换。

3. LoRA的特点

将BA加到W上可以消除推理延迟；
可以通过可插拔的形式切换到不同的任务；
设计的比较简单且效果好。

4. LoRA的优点

1）一个中心模型服务多个下游任务，节省参数存储量
2）推理阶段不引入额外计算量
3）与其它参数高效微调方法正交，可有效组合
4）训练任务比较稳定，效果比较好
5）LoRA 几乎不添加任何推理延迟，因为适配器权重可以与基本模型合并

5. LoRA的缺点

LoRA参与训练的模型参数量不多，也就百万到千万级别的参数量，所以效果比全量微调差很多。(数据以及算力满足的情况下，还是微调的参数越多越好）

二、训练理论

1. LoRA权重是否可以合入原模型？

可以，将训练好的低秩矩阵（B*A）+原模型权重合并（相加），计算出新的权重。

2. ChatGLM-6B LoRA后的权重多大？

rank 8 target_module query_key_value条件下，大约15M。

3. LoRA微调方法为啥能加速训练？

1）只更新了部分参数：比如LoRA原论文就选择只更新Self Attention的参数，实际使用时我们还可以选择只更新部分层的参数；
2）减少了通信时间：由于更新的参数量变少了，所以（尤其是多卡训练时）要传输的数据量也变少了，从而减少了传输时间；
3）采用了各种低精度加速技术，如FP16、FP8或者INT8量化等。

这三部分原因确实能加快训练速度，然而它们并不是LoRA所独有的，事实上几乎都有参数高效方法都具有这些特点。LoRA的优点是它的低秩分解很直观，在不少场景下跟全量微调的效果一致，以及在预测阶段不增加推理成本。

4. 如何在已有LoRA模型上继续训练？

理解此问题的情形是：已有的lora模型只训练了一部分数据，要训练另一部分数据的话，是在这个lora上继续训练呢，还是跟base 模型合并后再套一层lora，或者从头开始训练一个lora？

把之前的LoRA跟base model 合并后，继续训练就可以，为了保留之前的知识和能力，训练新的LoRA时，加入一些之前的训练数据是需要的。每次都要重头训练的话成本比较高。

5. LoRA这种微调方法和全参数比起来有什么劣势吗？