大模型微调<LoRA>

PERT 方法的局限与挑战

  • Adapter方法,通过增加模型深度而额外增加了模型推理延时;
  • Prompt Tuning、Prefix Tuning、P-Tuning等方法中的提示较难训练,同时缩短了模型可用的序列长度;
  • 往往难以同时实现高效率和高质量,效果通常不及完全微调;
  • 简而言之,尽管大模型参数规模巨大,但关键作用通常是由其中的低秩本质维度发挥的;
    在这里插入图片描述

LoRA相比Adapter方法的优势

1、推理性能高效

  • 与Adapter方法相比,LoRA在推理阶段直接利用训练好的A、B低秩矩阵替换预训练模型的对应参数。这种替换避免了增加网络深度所带来的额外计算量和推理延时。
  • LoRA方法是的推理过程与全参数微调(full-finetuning)相似,但并不增加额外的计算负担。保持了高效的推理性能,同时实现了对模型的有效调整。

2、模拟全参数微调的效果

  • LoRA通过对模型关键部分的低秩调整,实际上模拟了全参数微调的过程。
  • 这种方法几乎不会导致训练效果的损失,后续实验结果也证明了这一点。
    综上所述,LoRA提供了一种在保持推理效率的同时,有效微调大型预训练模型的方法,特别适用于对推理速度和模型性能都有高要求的应用场景。

LoRA相比Soft Prompts方法的优势

1、更深层次的模型修改:

  • LoRA通过修改模型的权重矩阵,直接影响模型的内部表示和处理机制,而不仅仅是输入层级;
  • 这意味着LoRA能够在模型的更深层次上产生影响,可能导致更有效的学习和适应性;

2、无需牺牲输入空间

  • soft Prompts通常需要占用模型的输入空间,这在有限的序列长度下可能限制了其他实际输入内容的长度;
  • LoRA不依赖于Prompt调整方法,避免了相关限制,因此不会影响模型能处理的输入长度;

3、直接作用于模型结构

  • LoRA通过在模型的特定层内引入低秩矩阵来调整模型的行为,这种修改是直接作用于模型结构的。
  • 相比之下,soft prompts更多是通过操纵输入数据来影响模型的输出;

4、更高的灵活性和适应性

  • LoRA提供了更大的灵活性,在不同的层和模型部件中引入低秩矩阵,可以根据具体任务进行调整;
  • 这种灵活性使得LoRA可以更精细的调整模型以适应特定的任务;

5、模拟全参数微调的效果

  • LoRA的设计思路是模拟全参数微调的过程,这种方法通常能够带来更接近全面微调的效果,尤其是在复杂的任务中。总的来说,LoRA的优势在于能够更深入地、不占用额外输入空间地修改模型,从而提供更高的灵活性和适应性。
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值