人工智能的技术概念解释

本文链接：https://blog.csdn.net/modi000/article/details/135620389

本文详细介绍了大模型微调的概念，包括监督微调、强化学习（如RLHF）和迁移学习的应用。强调了在特定任务中调整预训练模型以提高性能的重要性，以及全微调和部分微调的区别。此外，还提到了有监督和无监督学习，以及注意力机制在模型中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、SFT是监督微调（Supervised Fine-Tun-ing）的缩写。这是一种常见的深度学习策略，通常在预训练的大语言模型上使用。

参考该文

/以下来源于什么是大模型微调？微调的分类、方法、和步骤 - 澳鹏appen

什么是大模型微调？

大模型微调（Fine-tuning）是指在已经预训练好的大型语言模型基础上，使用特定的数据集进行进一步的训练，以使模型适应特定任务或领域。

其根本原理在于，机器学习模型只能够代表它所接收到的数据集的逻辑和理解，而对于其没有获得的数据样本，其并不能很好地识别/理解，且对于大模型而言，也无法很好地回答特定场景下的问题。

例如，一个通用大模型涵盖了许多语言信息，并能够进行流畅的对话。但是如果需要医药方面能够很好地回答患者问题的应用，就需要为这个通用大模型提供很多新的数据以供学习和理解。例如，布洛芬到底能否和感冒药同时吃？为了确定模型可以回答正确，我们就需要对基础模型进行微调。

为什么大模型需要微调？

预训练模型（Pre-trained Model），或者说基础模型（Foundation Model），已经可以完成很多任务，比如回答问题、总结数据、编写代码等。但是，并没有一个模型可以解决所有的问题，尤其是行业内的专业问答、关于某个组织自身的信息等，是通用大模型所无法触及的。在这种情况下，就需要使用特定的数据集，对合适的基础模型进行微调，以完成特定的任务、回答特定的问题等。在这种情况下，微调就成了重要的手段。

大模型微调的两个主要方法

我们已经讨论了微调的定义和重要性，下面我们介绍一下两个主要的微调方法。根据微调对整个预训练模型的调整程度，微调可以分为全微调和重用两个方法：

全微调（Full Fine-tuning）：全微调是指对整个预训练模型进行微调，包括所有的模型参数。在这种方法中，预训练模型的所有层和参数都会被更新和优化，以适应目标任务的需求。这种微调方法通常适用于任务和预训练模型之间存在较大差异的情况，或者任务需要模型具有高度灵活性和自适应能力的情况。Full Fine-tuning需要较大的计算资源和时间，但可以获得更好的性能。
部分微调（Repurposing）：部分微调是指在微调过程中只更新模型的顶层或少数几层，而保持预训练模型的底层参数不变。这种方法的目的是在保留预训练模型的通用知识的同时，通过微调顶层来适应特定任务。Repurposing通常适用于目标任务与预训练模型之间有一定相似性的情况，或者任务数据集较小的情况。由于只更新少数层，Repurposing相对于Full Fine-tuning需要较少的计算资源和时间，但在某些情况下性能可能会有所降低。

选择Full Fine-tuning还是Repurposing取决于任务的特点和可用的资源。如果任务与预训练模型之间存在较大差异，或者需要模型具有高度自适应能力，那么Full Fine-tuning可能更适合。如果任务与预训练模型相似性较高，或者资源有限，那么Repurposing可能更合适。在实际应用中，根据任务需求和实验结果，可以选择适当的微调方法来获得最佳的性能。

大模型微调的两个主要类型

同时，根据微调使用的数据集的类型，大模型微调还可以分为监督微调和无监督微调两种：

监督微调（Supervised Fine-tuning）：监督微调是指在进行微调时使用有标签的训练数据集。这些标签提供了模型在微调过程中的目标输出。在监督微调中，通常使用带有标签的任务特定数据集，例如分类任务的数据集，其中每个样本都有一个与之关联的标签。通过使用这些标签来指导模型的微调，可以使模型更好地适应特定任务。
无监督微调（Unsupervised Fine-tuning）：无监督微调是指在进行微调时使用无标签的训练数据集。这意味着在微调过程中，模型只能利用输入数据本身的信息，而没有明确的目标输出。这些方法通过学习数据的内在结构或生成数据来进行微调，以提取有用的特征或改进模型的表示能力。

监督微调通常在有标签的任务特定数据集上进行，因此可以直接优化模型的性能。无监督微调则更侧重于利用无标签数据的特征学习和表示学习，以提取更有用的特征表示或改进模型的泛化能力。这两种微调方法可以单独使用，也可以结合使用，具体取决于任务和可用数据的性质和数量。

大模型微调的主要步骤

大模型微调如上文所述有很多方法，并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。然而大部分的大模型微调，都有以下几个主要步骤，并需要做相关的准备：

准备数据集：收集和准备与目标任务相关的训练数据集。确保数据集质量和标注准确性，并进行必要的数据清洗和预处理。
选择预训练模型/基础模型：根据目标任务的性质和数据集的特点，选择适合的预训练模型。
设定微调策略：根据任务需求和可用资源，选择适当的微调策略。考虑是进行全微调还是部分微调，以及微调的层级和范围。
设置超参数：确定微调过程中的超参数，如学习率、批量大小、训练轮数等。这些超参数的选择对微调的性能和收敛速度有重要影响。
初始化模型参数：根据预训练模型的权重，初始化微调模型的参数。对于全微调，所有模型参数都会被随机初始化；对于部分微调，只有顶层或少数层的参数会被随机初始化。
进行微调训练：使用准备好的数据集和微调策略，对模型进行训练。在训练过程中，根据设定的超参数和优化算法，逐渐调整模型参数以最小化损失函数。
模型评估和调优：在训练过程中，使用验证集对模型进行定期评估，并根据评估结果调整超参数或微调策略。这有助于提高模型的性能和泛化能力。
测试模型性能：在微调完成后，使用测试集对最终的微调模型进行评估，以获得最终的性能指标。这有助于评估模型在实际应用中的表现。
模型部署和应用：将微调完成的模型部署到实际应用中，并进行进一步的优化和调整，以满足实际需求。

这些步骤提供了一个一般性的大模型微调流程，但具体的步骤和细节可能会因任务和需求的不同而有所变化。根据具体情况，可以进行适当的调整和优化。

然而，虽然微调相对于训练基础模型，已经是相当省时省力的方法，但是微调本身还是需要足量的经验和技术，算力，以及管理和开发成本。

//------------------------------------------------------------------------------------------------

2、强化学习(Reinforcement Learning)

1）强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境(Environment)进行交互获得的奖赏(Reward)驱动行为(Action)，目标是使智能体获得最大的奖赏。

2）强化学习与监督学习有很大的不同，强化学习不需要依靠标签好的数据信息，甚至可以不需要大量的数据，强化学习通过自身学习去产生数据集，并且利用产生的数据集继续进行学习优化，找到最优的方式。

3、RLHF（Reinforcement Learning fromHuman Feedback，人类反馈强化学习）起到的作用是，通过将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。这就像人类从另一个专业人士身上学习专业知识的方式一样。通过和人类之间架起一座桥梁，RLHF让AI快速掌握了人类经验。在RLHF中，强化学习与人类反馈相结合，人类的偏好被用作奖励信号，以指导模型的训练，从而增强模型对人类意图的理解和满足程度。在生成模型中，RLHF还可以让生成的图像与文本提示得到充分对齐。

监督微调需要调整参数，强化学习不需要调整参数。

RLHF旨在使智能系统从环境中学习，以最大化某种特定目标。该方法通过引入“奖励”和“惩罚”信号，让系统自行探索环境并学习最佳行为策略。与传统的监督学习不同，强化学习并不要求人工标注训练数据，而是依靠反馈信号和试错来调整行为策略。

4、迁移学习，参考该文

迁移学习(Transfer Learning)是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

. 为什么需要迁移学习？
大数据与少标注的矛盾：虽然有大量的数据，但往往都是没有标注的，无法训练机器学习模型。人工进行数据标定太耗时。
大数据与弱计算的矛盾：普通人无法拥有庞大的数据量与计算资源。因此需要借助于模型的迁移。
普适化模型与个性化需求的矛盾：即使是在同一个任务上，一个模型也往往难以满足每个人的个性化需求，比如特定的隐私设置。这就需要在不同人之间做模型的适配。
特定应用（如冷启动）的需求。

5、有监督学习、无监督学习，参考该文

有监督学习的训练数据集是有标注的，相当于告诉模型正确答案了，会用测试集（训练集的子集）来进行预测。无监督学习，模型使用未标记的数据集进行训练。

6、注意力机制，参考该文

始注意力模型！

（1）卷积神经网络中的最大汇聚：查看一块空间区域内的特征，并选择只保留一个特征。这是一种“全有或全无”的注意力形式，即保留最重要的特征，舍弃其他特征。

（2）TF-IDF规范化：根据每个词元可能携带的信息量，确定词元的重要性分数。重要的词元会受到重视，而不相关的词元则会被忽视。这是一种连续的注意力形式。有各种不同形式的注意力，但它们首先都要对一组特征计算重要性分数。特征相关性越大，分数越高；特征相关性越小，分数越低，如图11-5所示。如何计算和处理这个分数，则因方法而异。