自然语言处理: 第十二章LoRA解读

LoRA是一种针对大模型微调的技术,通过引入低秩矩阵适应下游任务,减少训练参数,提高效率。该方法不改变原始模型参数,仅训练低秩矩阵,实现与全量微调相当的效果。论文展示了LoRA在多种任务上的优秀表现,并提供了PyTorch实现。
摘要由CSDN通过智能技术生成

论文地址:[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org)

理论基础

自从GPT-3.5问世以来,整个AI界基本都走向了大模型时代,而这种拥有数亿参数的大模型对于普通玩家来说作全量微调基本是不可能的事。从而微软公司提出了LoRA(low-Rank Adaptation) 对大模型进行微调的技术,简单的来说就是针对于fine_tune的过程并不是全量微调,而是更像加入了一个adapter插件(与fine_tune技术相对于的一种对于大模型适应下游任务的训练手段,其宗旨是并不改变大模型的参数,而是在大模型的基础上增加一些额外的架构,可以参考AdapterHub - 572 adapters for 76 text tasks and 50 languages , 上面有各种各样的adapter) — 降低模型的参数的秩(有关于秩的概念,不清楚的大概可以理解成矩阵中线性无关的行或者列的最大数量)而只去训练那些关键的参数,但是并不改变原始预训练模型的参数,从而大大的降低了可训练参数的数量从而加快了训练速度,并且拥有与全量微调相近甚至过犹不及的效果,这就是LoRA niubility的地方了。

针对于现在的大模型参数大的特点,全量微调对于很多非商业的使用者来说是非常不友好的,因此parameter-efficcient fine-tuning methods就提出来了,其并不需要去调整整个大模型的参数,而是去高校的优化模型的部分参数或者说是能适用于下游任务的新参数。下面是目前几个流行的方法

  • Adapter Tuning: 在transformer架构中增加其他模块
  • Prefix Tuning: 在每一个注意力前增加prefix
  • Prompt tuning: 去不断的改变prompt(模板)的embedding,这里的promot 可以是有语义信息的hard prompt 也可以是没有任何语义信息的sofr promot(P-tuing)
  • LoRA: 将原始的参数替换成低秩的矩阵,从而去优化这个低秩矩阵,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值