无监督学习、自监督学习、有监督学习、SFT监督微调介绍

rs勿忘初心

已于 2024-03-13 17:51:18 修改

阅读量1.9k

点赞数 25

文章标签：人工智能 SFT监督微调有监督微调

于 2024-03-13 17:50:37 首次发布

本文链接：https://blog.csdn.net/sinat_33718563/article/details/136686838

版权

无监督学习（Unsupervised Learning）

解释：无监督学习是一种机器学习的方法，其中模型从未标记的数据中学习。也就是说，给模型提供输入数据，但没有给出相应的期望输出或标签。模型需要自己发现数据中的模式、结构或关联。
技术术语：
- “未标记的数据”：指的是没有附带额外信息（如类别标签或值）的数据。
- “模式、结构或关联”：无监督学习的目标通常是识别数据中的群集、异常值、降维或某种内在结构。

自监督学习（Self-Supervised Learning）

解释：自监督学习是无监督学习的一个子集，它利用输入数据本身的结构或特性来生成标签，然后利用这些标签进行有监督的学习。换句话说，模型首先从未标记的数据中生成自己的标签或监督信号，然后使用这些标签来训练。
技术术语：
- “生成标签”：自监督学习算法会设计任务，使得模型能够从输入数据中提取有用的信息，并将这些信息用作训练时的标签。
- “监督信号”：指的是用于指导模型学习的标签或信息。在自监督学习中，这些监督信号是由模型自己从数据中生成的。

有监督学习（Supervised Learning）

解释：有监督学习是一种机器学习的方法，其中模型从标记的数据中学习。也就是说，给模型提供输入数据以及相应的期望输出或标签。模型的目标是学会将输入映射到正确的输出。
技术术语：
- “标记的数据”：指的是附带额外信息（如类别标签或具体值）的数据。
- “输入映射到输出”：有监督学习的目标是训练模型，使其能够根据给定的输入数据预测出正确的输出或标签。

这些学习范式各有其优缺点，并适用于不同类型的问题和数据集。例如，当有大量未标记的数据但标记数据很少时，无监督或自监督学习可能更为合适；而当有充足的标记数据时，有监督学习通常能够提供更好的性能。

SFT监督微调

SFT监督微调基本概念

SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

监督微调的步骤

具体来说，监督式微调包括以下几个步骤：

预训练： 首先在一个大规模的数据集上训练一个深度学习模型，例如使用自监督学习或者无监督学习算法进行预训练；
微调： 使用目标任务的训练集对预训练模型进行微调。通常，只有预训练模型中的一部分层被微调，例如只微调模型的最后几层或者某些中间层。在微调过程中，通过反向传播算法对模型进行优化，使得模型在目标任务上表现更好；
评估： 使用目标任务的测试集对微调后的模型进行评估，得到模型在目标任务上的性能指标。

监督微调的特点

监督式微调能够利用预训练模型的参数和结构，避免从头开始训练模型，从而加速模型的训练过程，并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先，需要大量的标注数据用于目标任务的微调，如果标注数据不足，可能会导致微调后的模型表现不佳。其次，由于预训练模型的参数和结构对微调后的模型性能有很大影响，因此选择合适的预训练模型也很重要。

SFT监督微调的主流方法

随着技术的发展，涌现出越来越多的大语言模型，且模型参数越来越多，比如 GPT3 已经达到 1750 亿的参数量，传统的监督微调方法已经不再能适用现阶段的大语言模型。为了解决微调参数量太多的问题，同时也要保证微调效果，急需研发出参数高效的微调方法（Parameter Efficient Fine Tuning, PEFT）。目前，已经涌现出不少参数高效的微调方法，其中主流的方法包括：