PERT 方法的局限与挑战
- Adapter方法,通过增加模型深度而额外增加了模型推理延时;
- Prompt Tuning、Prefix Tuning、P-Tuning等方法中的提示较难训练,同时缩短了模型可用的序列长度;
- 往往难以同时实现高效率和高质量,效果通常不及完全微调;
- 简而言之,尽管大模型参数规模巨大,但关键作用通常是由其中的低秩本质维度发挥的;
LoRA相比Adapter方法的优势
1、推理性能高效
- 与Adapter方法相比,LoRA在推理阶段直接利用训练好的A、B低秩矩阵替换预训练模型的对应参数。这种替换避免了增加网络深度所带来的额外计算量和推理延时。
- LoRA方法是的推理过程与全参数微调(full-finetuning)相似,但并不增加额外的计算负担。保持了高效的推理性能,同时实现了对模型的有效调整。
2、模拟全参数微调的效果
- LoRA通过对模型关键部分的低秩调整,实际上模拟了全参数微调的过程。
- 这种方法几乎不会导致训练效果的损失,后续实验结果也证明了这一点。
综上所述,LoRA提供了一种在保持推理效率的同时,有效微调大型预训练模型的方法,特别适用于对推理速度和模型性能都有高要求的应用场景。
LoRA相比Soft Prompts方法的优势
1、更深层次的模型修改:
- LoRA通过修改模型的权重矩阵,直接影响模型的内部表示和处理机制,而不仅仅是输入层级;
- 这意味着LoRA能够在模型的更深层次上产生影响,可能导致更有效的学习和适应性;
2、无需牺牲输入空间
- soft Prompts通常需要占用模型的输入空间,这在有限的序列长度下可能限制了其他实际输入内容的长度;
- LoRA不依赖于Prompt调整方法,避免了相关限制,因此不会影响模型能处理的输入长度;
3、直接作用于模型结构
- LoRA通过在模型的特定层内引入低秩矩阵来调整模型的行为,这种修改是直接作用于模型结构的。
- 相比之下,soft prompts更多是通过操纵输入数据来影响模型的输出;
4、更高的灵活性和适应性
- LoRA提供了更大的灵活性,在不同的层和模型部件中引入低秩矩阵,可以根据具体任务进行调整;
- 这种灵活性使得LoRA可以更精细的调整模型以适应特定的任务;
5、模拟全参数微调的效果
- LoRA的设计思路是模拟全参数微调的过程,这种方法通常能够带来更接近全面微调的效果,尤其是在复杂的任务中。总的来说,LoRA的优势在于能够更深入地、不占用额外输入空间地修改模型,从而提供更高的灵活性和适应性。