PEFT:参数高效微调及hg工具
重要术语词汇
LLM 模型: 大型语言模型或 LLM 是一种机器学习模型,可以学习 NLP 任务的文本数据的底层结构和语义。他们通过学习一组代表文本高级概念和特征的潜在变量来做到这一点。从本质上讲,LLM 模型试图捕捉文本的内容,而不仅仅关注使用的单词。
预训练模型:预训练模型是经过大量数据训练以促进特定任务(例如图像分类、语音识别或自然语言处理)的机器学习模型。这些模型已经学习了有效执行任务所需的最佳权重和参数集,以便它们可以用作进一步训练新数据或用于其他应用程序的起点。
参数:参数是模型在训练过程中学习的值/变量,用于对新数据进行预测或分类。参数通常表示为神经网络中的权重和偏差,它们控制输入数据如何转换为输出预测。
迁移学习:迁移学习是指采用为特定任务开发的预训练模型,并将其重新用作新的相关任务的起点。这涉及使用预训练模型的学习特征表示作为新模型的起点,然后在特定于新任务的较小数据集上进行训练。
微调:微调是一种特定类型的迁移学习,其中预训练模型的权重在新的特定于任务的数据集上进行调整或微调。预训练模型用作此过程的起点,但在训练过程中会调整权重以更好地适应新数据。微调的量可能会有所不同,具体取决于可用数据量以及原始任务和新任务之间的相似性。
填充:填充是微调语言模型过程中用于处理可变长度输入序列的常用技术。这是向输入序列添加特殊标记(通常是“填充”标记)以使其达到固定长度的过程。
隐藏表示:隐藏表示是预训练模型层学习的输入数据的内部表示。这些表示捕获输入数据的不同抽象级别,并且可以用作特征来为手头的任务训练新模型。
少样本学习:少样本学习是一种机器学习技术,旨在基于有限数量的标记数据(通常在几十到几百个示例的范围内)训练模型,然后仅用很少甚至是单个标记的示例。少样本学习算法可以通过利用相关任务或领域的先验知识,通过很少的示例来学习识别新的对象、类别或概念。
什么是PEFT?
参数高效微调(PEFT)是自然语言处理(NLP)中使用的一种技术,用于提高预训练语言模型在特定下游任务上的性能。它涉及重用预训练模型的参数并在较小的数据集上对其进行微调,与从头开始训练整个模型相比,这可以节省计算资源和时间。
PEFT 通过冻结预训练模型的某些层并仅微调特定于下游任务的最后几层来实现这种效率。这样,模型就可以以更少的计算开销和更少的标记示例来适应新任务。尽管 PEFT 是一个相对新颖的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到实践。即使在 NLP 领域,静态和非静态词嵌入的实验也很早就进行了。
参数高效的微调旨在提高预训练模型(例如 BERT 和 RoBERTa)在各种下游任务(包括情感分析、命名实体识别和问答)上的性能。它在数据和计算资源有限的低资源环境中实现了这一点。它仅修改模型参数的一小部分,并且不太容易出现过度拟合。
微调和参数高效微调有什么区别?
微调和参数高效微调是机器学习中用于提高预训练模型在特定任务上的性能的两种方法。
微调是采用预先训练的模型,并使用新数据进一步训练新任务。整个预训练模型通常经过微调训练,包括其所有层和参数。此过程的计算成本可能很高且耗时,尤其是对于大型模型。
另一方面,参数高效微调是一种微调方法,专注于仅训练预训练模型参数的子集。这种方法涉及识别新任务最重要的参数,并仅在训练期间更新这些参数。这样做,PEFT 可以显着减少微调所需的计算量。
在计算资源有限或涉及大型预训