速通LLM——SFT、RLHF、对齐、RAG、微调大扫盲

最新推荐文章于 2025-03-13 13:59:59 发布

大耳朵爱学习

最新推荐文章于 2025-03-13 13:59:59 发布

阅读量4k

点赞数 25

文章标签：人工智能自然语言处理 AI大模型 RAG LLM 大语言模型大模型微调

本文链接：https://blog.csdn.net/2401_85379281/article/details/142652073

版权

LLM（large language model）技术发展到今天，已经有许多代码和权重都开源的模型（如llama2等）供开发者下载使用。语言模型的本质是通过算法预测下一个位置上出现概率最高的字或词，LLM的预训练阶段通常是无监督或自监督的，例如通过bert模型完成类似于完型填空的任务，数据通常来源于互联网上的大量预料。预训练后的LLM已经具备了基础的语言理解或预测能力，但可能存在输出不符合人类表达习惯或道德准则，或在特定场景或垂直领域（比如数学计算，推理等）中的表现不尽人意等问题。这就需要对预训练后的大模型进行一些微调。

SFT（Supervised Fine-Tuning）有监督微调

定义：SFT 是指使用有监督的标注数据集对预训练的大型语言模型进行微调的过程。通过监督学习，模型可以更好地在特定任务中进行预测。
过程：
构造有监督数据集，like：{<input1, output1>，<input2, output2>，<input3, output3>}。数据可能包括问答配对、对话实例、分类任务的标签等。
对模型进行有监督训练或微调，模型学习如何根据给定的输入生成最接近目标的输出。
局限：模型在生成输出时仅依赖于标注数据，容易受到训练数据的限制，不具备灵活处理用户反馈的能力。

RLHF（Reinforcement Learning from Human Feedback）人类反馈强化学习

定义：RLHF 通常在SFT之后进行，是通过人类反馈来优化模型行为的一种强化学习方法，旨在让模型生成的内容更符合人类的偏好和期望，更符合人类道德、价值观。
过程：

生成候选输出：模型生成多个可能的输出。
人类反馈：让人类评审员对这些输出进行打分或排序，标注哪些输出更符合预期。
奖励模型训练：基于人类反馈训练一个“奖励模型”，它能够自动评估模型输出的质量。
强化学习优化：使用强化学习算法（如PPO）调整模型参数，优化其策略以获得更高的“奖励”（即更符合人类偏好的输出）。

局限：RLHF过程需要大量人类反馈，RLHF 的训练成本较高。

Align（对齐）

定义：Align 是指将模型的输出与人类的期望、价值观、道德标准等进行对齐，确保模型生成的内容不仅在技术上正确，还能在伦理和社会层面上符合人类的需求。
Align 通常结合 SFT 和 RLHF 来实现，通过这两种方法来不断优化模型的输出，使其与人类期望保持一致。
目标：
确保模型输出不会带来负面社会影响，如偏见、仇恨言论、不当信息等。
提升模型的可用性和安全性，避免产生有害或误导性的内容。
具体方法：

SFT 阶段：通过带有良好标注的训练数据，对模型进行有监督的微调，以学习安全和有益的行为。
RLHF 阶段：通过人类反馈强化模型，使其生成内容更符合人类伦理和道德标准。

例子：模型不应该回答一些可能危害人类安全健康的问题，例如，当用户提问“如何制作炸弹”时，模型应对该问题进行回避。

RAG（Retrieval-Augmented Generation）搜索增强

定义：RAG是一种结合信息检索和文本生成的大型语言模型（LLM）架构。RAG 通过将预训练的语言生成模型（如 GPT）与信息检索组件结合，使得模型可以动态地从外部知识库中检索相关信息，并将这些信息融入到生成的文本中，可以提高LLM在特定垂直领域的表现。
实现：

知识库准备：某个文档按照段落或其他方式合理地分割成若干块（chunks），将每个chunks embedding成向量的形式存储在向量数据库中。
知识库检索：当用户问了一个问题时，也是先把用户的问题embedding成向量，然后在向量数据库中检索有可能包含该问题答案的chunks，可以让数据库返回多个可能性较高的chunks。
回答形成：这些chunks作为上下文context与之前的问题向量一起组成prompt，再将prompt输入到大模型中，生成最终的回答或文本。这些检索到的文档或片段为模型提供了额外的上下文信息。

特点：

1. 普通生成模型（如 GPT-3）仅依赖于其预训练的内部知识，而 RAG 依赖知识库，可以动态地检索外部信息，生成更符合当前现实和知识背景的内容。

2. 不需要微调模型，算力开销小。

3. 表现依赖于检索的质量，若检索到的文档不相关或错误，生成的文本可能会偏离主题或包含误导性信息。

微调（Fine-tuning）

定义：是指在已经预训练的模型基础上，通过进一步的训练使其适应特定任务或领域的过程。
实现：

1. 全参数微调（Full Fine-Tuning） 对预训练模型的所有参数进行微调。这种方式可以充分利用模型的能力，适应特定任务。

优点：效果通常最佳，因为模型能够完全调整以适应新任务。

缺点：需要较多的计算资源和时间。

2. 冷冻部分参数（Freezing Layers） 仅微调模型的某些层，其他层保持不变。通常会冻结底层，微调顶层。

优点：减少计算资源需求，降低过拟合风险。

缺点：可能无法充分挖掘预训练模型的潜力，性能可能不如全参数微调。

3. 适配器（Adapters） 在预训练模型的某些层中插入小型适配器网络，仅微调适配器的参数，而不更改主模型的权重。

优点：参数量小，灵活性高，允许多任务共享同一基础模型。

缺点：适配器的设计和插入位置需要经验，可能对性能有影响。

4. 知识蒸馏（Knowledge Distillation） 通过训练一个较小的模型（学生模型）来模拟大型预训练模型（教师模型）的输出，学生模型可以在特定任务上进行微调。

优点：生成更小的模型，适合在资源有限的环境中部署。

缺点：小模型的表现可能不如直接微调大模型。
3. LoRA微调 （Low-Rank Adaptation） 在模型的某些层中，将权重矩阵进行低秩分解，将更新的参数表示为两个低秩矩阵的乘积，例如。100*100的参数矩阵拆成A100*20 @ B20*100，减少需要调参的参数量。
优点：需要更新的参数量少，降低了计算和内存需求。
缺点：低秩分解中的秩参数需要仔细选择，不当选择可能影响模型的效果。