大模型知识搬运工 之 常见大模型微调的七种方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

常见的大模型微调的方法包括Lora、OLora、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)、提示调整(Prompt Tuning)、P-Tuning、P-Tuning v2。
在这里插入图片描述


提示:以下是本篇文章正文内容,下面案例可供参考

一、Lora

Lora(Low-Rank Adaptation)是一种旨在微调大型预训练语言模型的技术。
其核心理念在于,在模型的决定性层次中引入小型、低秩的矩阵来实现模型行为的微调,而无需对整个模型结构进行大幅度修改。
这种方法的优势在于,在不显著增加额外计算负担的前提下能够有效地微调模型,同时保留模型原有的性能水准。

Lora的操作流程如下:

  1. 确定微调目标权重矩阵:首先在大型模型中识别出需要微调的权重矩阵,这些矩阵一般位于模型的多头自注意力和前馈神经网络部分。
  2. 引入两个低秩矩阵:然后,引入两个维度较小的低秩矩阵A和B。假设原始权重矩阵的尺寸为dd,则A和B的尺寸可能为dr和r*d,其中r远小于d。
  3. 计算低秩更新:通过这两个低秩矩阵的乘积AB来生成一个新矩阵,其中秩(即r)远小于原始权重矩阵的秩。这个乘积实际上是对原始权重矩阵的一种低秩近似调整。
  4. 结合原始权重:最终,新生成的低秩矩阵AB被叠加到原始权重矩阵上。因此,原始权重经过微调,但大部分权重维持不变。这个过程可以用数学表达式描述为:新权重=原始权重+AB。

二、QLora

OLora(QuantizedLow-RankAdaptation)是一种结合了Lora(Low-RankAdaptation)方法与深度量化技术的高效模型微调技术。

OLora的核心在于:

1.量化技术:QLora采用创新的技术将预训练模型量化为4位。这一技术包括低精度存储数据类型(4-bit Normal Float,简称NF4)和计算数据类型(16-bit Brain Float)。这种做法极大地减少了模型存储需求,同时保持了模型精度的最小损失。

2.量化操作:在4位量化中,每个权重由4个比特表示,量化过程中需选择最重要的值并将它们映射到16个可能的值之一。首先确定量化范围(例如,-1到1),然后将这个范围分成16个区间,每个区间对应一个4-bit值。然后,原始的32为浮点数值将映射到最近的量化区间值上。

3.微调阶段:在训练期间,QLora先以4-bit格式加载模型,训练时将数值反量化到bf16进行训练,这样大幅减少了训练所需的显存。例如,33B的llama模型可以在24GB的显卡上进行训练。

量化过程的挑战在于设计合适的映射和量化策略,以最小化精度损失对性能的影响。在大模型中,这种方法可以显著减少内存和计算需求,使得在资源有限的环境下部署和训练成为可能。

三、适配器调整(Adapter Tuning)

与Lora技术类似,适配器调整的目标是在保留预训练模型原始参数不变的前提下,使模型能够适应新的任务。适配器调整的方法是在模型的每个层或选定层之间插入小型神经网络模块,称为“适配器”。这些适配器是可训练的,而原始模型的参数则保持不变。

适配器调整的关键步骤包括:

1.以预训练模型为基础:初始阶段,我们拥有一个已经经过预训练的大模型,该模型已经学习了丰富的语言特征和模式。

2.插入适配器:在预训练模型的每个层或指定层中,我们插入适配器。适配器是小型的神经网络,一般包含少量层次,并且参数规模相对较小。

3.维持预训练参数不变:在微调过程中原有的预训练模型参数保持不变。我们不直接调整这些参数,而是专注于适配器的参数训练。

4.训练适配器:适配器的参数会根据特定任务的数据进行训练,使适配器能够学习如何根据任务调整模型的行为。

5.针对任务的调整:通过这种方式,模型能够对每个特定任务进行微调,同时不影响模型其他部分的通用性能。适配器有助于模型更好地理解和处理与特定任务相关的特殊模式和数据。

6.高效与灵活:由于只有部分参数被调整,适配器调整方法相比于全模型微调更为高效,并且允许模型迅速适应新任务。

例如,如果我们有一个大型文本生成模型,它通常用于执行广泛的文本生成任务。若要将其微调以生成专业的金融报告,我们可以在模型的关键层中加入适配器。

在微调过程中,仅有适配器的参数会根据金融领域的数据进行更新,使得模型更好地适应金融报告的写作风格和术语,同时避免对整个模型架构进行大幅度调整。

对比:Lora与适配器调整的主要区别在于:

1.Lora:在模型的权重矩阵中引入低秩矩阵来实现微调。这些低秩矩阵作为原有权重矩阵的修改项,在实际计算时对原有权重矩阵进行调整。

2.适配器调整:通过在模型各层中添加小型神经网络模块“适配器”来实现微调。适配器独立于模型的主体结构,仅适配器的参数在微调过程中更新,而模型的其他预训练参数保持不变。

四、前缀调整(Prefix Tuning)

与传统的微调范式不同,前缀调整提出了一种新的策略,即在预训练的语言模型(LM)输入序列前添加可训练、任务特定的前缀,从而实现针对不同任务的微调。这意味着我们可以为不同任务保存不同的前缀,而不是为每个任务保存一整套微调后的模型权重,从而节省了大量的存储空间和微调成本。
在这里插入图片描述
前缀实际上是一种连续可微的虚拟标记(Soft Prompt/Continuous Prompt),与离散的Token相比,它们更易于优化并且效果更佳。这种方法的优势在于不需要调整模型的所有权重,而是通过在输入中添加前缀来调整模型的行为,从而节省大量的计算资源,同时使得单一模型能够适应多种不同的任务。前缀可以是固定的(即手动设计的静态提示)或可训练的(即模型在训练过程中学习的动态提示)。

五、提示调整(Prompt Tuning)

提示调整是一种在预训练语言模型输入中引入可学习嵌入向量作为提示的微调方法。这些可训练的提示向量在训练过程中更新,以指导模型输出更适合特定任务的响应。

提示调整与前缀调整都涉及在输入数据中添加可学习的向量,这些向量是在输入层添加的,但两者的策略和目的不同:
1)提示调整:旨在模仿自然语言中的提示形式,将可学习向量(通常称为提示标记)设计为模型针对特定任务生成特定类型输出的引导。这些向量通常被视为任务指导信息的一部分,倾向于使用较少的向量来模仿传统的自然语言提示。
2)前缀调整:可学习前缀更多地用于提供输入数据的直接上下文信息,作为模型内部表示的一部分,可以影响整个模型的行为。

以下是两者的训练示例,以说明它们的不同:

1.提示调整示例:

输入序列:[Prompt1][Prompt2] “这部电影令人振奋。”
问题:评价这部电影的情感倾向?
答案:模型需要预测情感倾向(例如:“积极”) 提示:没有明确的外部提示,[Prompt1][Prompt2]作为引导模型的内部提示,这里的问题是隐含的,即判断文本中表达的情感倾向。

2.前缀调整示例:

输入序列:[Prefix1][Prefix2][Prefix3] “I want to watch a movie.”
问题:根据前缀生成后续的自然语言文本答案:模型生成的文本,如“that is exciting and fun.”
提示:前缀本身提供上下文信息,没有单独的外部提示。

六、P-Tuning

P-Tuning(基于提示的微调)和提示调整都是为了调整大型预训练模型以适应特定任务而设计的技术。两者都利用预训练的语言模型执行特定任务而设计的技术。两者都利用预训练的语言模型执行特定的下游任务,如文本分类、情感分析等,并使用某种形式的“提示”或“指导”来引导模型输出,以更好地适应特定任务。

提示调整与P-Tuning的主要区别在于:

1)提示调整:使用静态的、可训练的虚拟标记嵌入,在初始化后保持固定,除非在训练过程中更新。这种方法相对简单,因为它只涉及调整一组固定的嵌入参数,在处理多种任务时表现良好,但可能在处理特别复杂或需要细粒度控制的任务时受限。
2)P-Tuning:使用一个可训练的LSTM模型(称为提示编码器prompt encoder)来动态生成虚拟标记嵌入,允许根据输入数据的不同生成不同的嵌入,提供更高的灵活性和适应性,适合需要精细控制和理解复杂上下文的任务。这种方法相对复杂,因为它涉及一个额外的LSTM模型来生成虚拟标记嵌入。

P-Tuning中使用LSTM(长短期记忆网络)作为生成虚拟标记嵌入的工具,利用LSTM的一下优势:

1)更好的适应性和灵活性:LSTM可以捕捉输入数据中的时间序列特征,更好地理解和适应复杂的、顺序依赖的任务,如文本生成或序列标注。
2)改进的上下文理解:LSTM因其循环结构,擅长处理和理解长期依赖关系和复杂的上下文信息。
3)参数共享和泛化能力:在P-Tuning中,LSTM模型的参数可以在多个任务之间共享,这提高了模型泛化能力,并减少了针对每个单独任务的训练需求。而在提示调整中,每个任务通常都有其独立的虚拟标记嵌入,这可能限制了跨任务泛化的能力。

七、P-Tuning v2

P-Tuning v2是P-Tuning的进一步改进版,在P-Tuning中,连续提示被插入到输入序列的嵌入层中,除了语言模型的输入层,其它层的提示嵌入都来自于上一层。

这种设计存在两个问题:

1)第一,它限制了优化参数的数量。由于模型的输入文本长度是固定的,通常为512,因此提示的长度不能过长。
2)第二,当模型层数很深时,微调时模型的稳定性难以保证;模型层数越深,第一层输入的提示对后面层的影响难以预测,这会影响模型的稳定性。

P-Tuning v2的改进在于,不仅在第一层插入连续提示,而是在多层都插入连续提示,且层与层之间的连续提示是相互独立的。这样,在模型微调时,可训练的参数量增加了,P-Tuning v2在应对复杂的自然语言理解(NLU)任务和小型模型方面,相比原始P-Tuning具有更出色的效能。

总结

除了以上PEFT(微调方法),当前还存在PILL(Pluggable、SSF(Scaling Instruction Language Learning)&Shifting Your Features)等其他类型的微调方法。

PILL是PEFT的一个特定实现,特别关注于如何通过插入可训练的模块或插件来提升模型的任务适应性。这些插件被设计为与原模型协同工作,以提高模型在处理特定任务时的效率和效果。

SSF核心思想是对模型的特征(即模型层的输出)进行缩放(Scaling)和位移(Shifting)。简单来说,就是通过调整特征的比例和偏移量来优化模型的性能。

这种方法可以在改善模型对特定任务的响应时,不需要调整或重新训练模型中的所有参数,从而在节省计算资源的同时保持或提升模型性能。这对于处理大规模模型特别有效,因为它减少了训练和调整所需的资源和时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值