大语言模型的微调方法_大语言模型六种微调方法,零基础入门到精通,收藏这一篇就够了

01

引言

自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。

02

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术,在2019年由谷歌的研究人员提出,也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时,如果进行全量微调,效率较低,而如果固定预训练模型的大部份参数,只对为下游任务添加的几层参数进行微调时,效果较差。

因此,他们设计了Adapter结构(下图右),并将其集成在Transformer中(下图左)。在微调阶段,只对Adapter中的参数进行调整,固定所有其他参数。

Adapter模块包含一个down-project层(即将高维特征映射为低维特征)、非线性层和up-project层(即将低维特征映射回高维特征)。同时包含skip-connection结构,与残差类似。

Adapter的效果如下图所示,其能够在只增加并训练BERT-large的3.6%的参数的情况下,在GLUE基准达到80.0的总分(BERT-large全量微调的得分为80.4)

03

Prefix Tuning与Prompt Tuning

2021年,斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token(即Prefix),在训练时只更新Prefix部份参数,固定模型中其他参数,如下图所示。

直接更新Prefix会导致训练过程不稳定,因此研究人员在Prefix前加上一个MLP结构,将一个含有较少参数的矩阵P’转化为Prefix,训练时更新P’与MLP的参数,在训练完成后删除这些参数,只保留并存储不同任务的Prefix,而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中,在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时,Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似,但是是由模型自动对Prompt进行隐式编码,而不是人为构造显式的Prompt。

2021年,谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同,这个方法可以看作是另一种Prefix Tuning,在输入层加入prompt token并与原输入拼接,并没有额外加入MLP,如下图所示。

作者对T5模型进行了实验,并且发现随着预训练模型参数量增大,Prompt tuning的效果会越来越接近全量微调,如下图所示。

04

LoRA

Adapter Tuning与Prefix Tuning各有一定优势,但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量,而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度,且有一定优化问题,其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上,它的核心思想是通过低秩分解来表示模型的权重更新,并且只更新分解矩阵部分的参数。

为了便于理解,首先附上原论文的LoRA示意图,如下图所示。

图中,左侧蓝色矩形表示预训练权重矩阵,右侧表示其参数更新过程的低秩分解,先通过矩阵A将特征映射到低维(r一般为2/4/8/16),再通过矩阵B映射回原维度。训练时固定预训练矩阵,只更新A与B,再将预训练矩阵与A、B合并(BA的维度与W相同)。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩(intrinsic rank)”,对预训练的权重矩阵,用低秩分解来表示其更新:

将A初始化为均值为0的正态分布,B初始化为0,在训练过程中只训练A、B,固定预训练权重。

这种方法的优势在于:(1)只需更新A、B矩阵并与预训练权重合并,没有引入额外的结构导致推理延时;(2)大大降低显存消耗;(3)可灵活定制,即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系,可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外,论文作者也在18M的参数预算(如果使用FP16精度,大约35MB空间)下,将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验,如下表所示。

可以发现,将所有参数放入Wq或Wk会导致性能显著降低,同时调整Wq、Wv会产生更好的结果,这表明即秩较低,也能在更多矩阵中捕获更多信息。因此,在相同显存约束的情况下,采用更多权重矩阵、更小的维度结果可能会更好。

05

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法,这些方法可以总结为以下几种思路:

1、在模型中增加少量参数,与原模型串行;

2、在输入层增加少量参数,并行输入模型;

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵,与原矩阵并行。

在大模型时代,对于一般的研究机构而言,要想在少量GPU上部署大模型,对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库(https://huggingface.co/docs/peft/index),Prefix Tuning、LoRA等PEFT算法都可以通过它来调用,这将一定程度降低大模型的训练门槛,增加我们对大模型的研究效率。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值