PERT 方法的局限与挑战
- Adapter方法,通过增加模型深度而额外增加了模型推理延时;
- Prompt Tuning、Prefix Tuning、P-Tuning等方法中的提示较难训练,同时缩短了模型可用的序列长度;
- 往往难以同时实现高效率和高质量,效果通常不及完全微调;
- 简而言之,尽管大模型参数规模巨大,但关键作用通常是由其中的低秩本质维度发挥的;
LoRA相比Adapter方法的优势
1、推理性能高效
- 与Adapter方法相比,LoRA在推理阶段直接利用训练好的A、B低秩矩阵替换预训练模型的对应参数。这种替换避免了增加网络深度所带来的额外计算量和推理延时。
- LoRA方法是的推理过程与全参数微调(full-finetuning)相似,但并不增加额外的计算负担。保持了高效的推理性能,同时实现了对模型的有效调整。
2、模拟全参数微调的效果
- LoRA通过对模型关键部分的低秩调整,实际上模拟了全参数微调的过程。
- 这种方法几乎不会导致训练效果的损失,后续实验结果也证明了这一点。
综上所述,LoRA提供了一种在保持推理效率的同时,有效微调大型预训练模型的方法,特别适用于对推理速度和模型性能都有高要求的应用场景。