大模型-DeltaTuning-重参数式：LoRA（Low-Rank Adaptation）【效果比全量微调还是有一定的差距】

u013250861

已于 2023-08-03 16:14:33 修改

阅读量270

点赞数

分类专栏： # LLM/预训练&SFT 文章标签：深度学习人工智能

于 2023-06-17 00:23:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/131255463

版权

LLM/预训练&SFT 专栏收录该内容

84 篇文章 59 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

微调大规模语言模型到特殊领域和任务是自然语言处理的重要课题之一。但随着模型规模的不断扩大，微调模型的所有参数（所谓full fine-tuning）的可行性变得越来越低。以GPT-3的175B参数为例，每增加一个新领域就需要完整微调一个新模型，代价和成本很高。

0x1：已有方案的问题

为解决微调大规模语言模型到不同领域和任务的挑战，已有多种方案，比如部分微调、使用adapters和prompting。但这些方法存在如下问题：

Adapters引入额外的推理延迟 (由于增加了模型层数)
Prefix-Tuning难于训练，且预留给prompt的序列挤占了下游任务的输入序列空间，影响模型性能

1、Adapter引入推理延迟

显然，使用Adapter增加模型层数会增加推理的时长：

从上图可以看出，对于线上batch size为1，输入比较短的情况，推理延迟的变化比例会更明显。

简单来说，adapter就是固定原有的参数，并添加一些额外参数用于微调。Adapter会在原始的transformer block中添加2个adapter，一个在多头注意力后面，另一个这是FFN后面。显然，adapter会在模型中添加额外的层，这些层会导致大模型在推理时需要更多的GPU通信，而且也会约束模型并行。这些问题都将导致模型推理变慢。

2、很难直接优化Prompt

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型-DeltaTuning-重参数式：LoRA（Low-Rank Adaptation）【效果比全量微调还是有一定的差距】

lora本质是对大模型微调的方法，NLP领域的一个重要课题是，一般领域数据的通用大模型对特定任务或领域的适应。当预训练大模型很大时，重新训练所有模型参数的微调变得不可太行，例如GPT3的175B。提出的lora采用低秩分解矩阵，冻结了预训练模型的权重，并将低秩分解矩阵注入到transformer的每一层，减少了训练参数量。如上图所示们对于某个线性层而言，左边是模型原有的参数，在训练过程中是冻结不变的，右边是lora方法增加的低秩分解矩阵。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。