微调大语言模型知识

会飞的Anthony

已于 2024-08-14 08:06:31 修改

阅读量1.3k

点赞数 27

分类专栏：信息系统自然语言处理 AIGC 文章标签：语言模型人工智能自然语言处理

于 2024-08-14 00:45:00 首次发布

本文链接：https://blog.csdn.net/ljd939952281/article/details/141160670

版权

99 篇文章 0 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

在自然语言处理领域，大语言模型（Large Language Models, LLMs）展示了卓越的能力。了解这些模型的特点及微调方法可以帮助更好地应用它们。

大语言模型的定义

大语言模型（LLM）是用于理解和生成自然语言的人工智能模型。它们通常具有数十亿个参数，并在大量文本数据上进行训练。常见的大语言模型包括：

大语言模型的特点

能力：
- 上下文学习：理解上下文并生成响应。
- 指令遵循：根据任务指令执行特定任务。
- 逐步推理：利用“思维链”策略处理复杂推理任务。
特点：
- 参数规模大：捕捉复杂的语言知识和语法结构。
- 预训练和微调：先在无标签数据上预训练，再用有标签数据微调。
- 上下文感知能力强：理解和生成依赖前文的内容。
- 支持多语言和多模态：应用广泛且跨语言。

微调的定义

微调是基于已预训练好的模型进行进一步调整的过程，通过在特定任务或领域的数据上进行训练，使模型更好地适应新的需求。

微调的流程

微调的两种主要范式

增量预训练微调（Continue PreTraining）：
- 适用场景：让模型学习新领域的知识。
- 训练数据：包括文章、书籍、代码等。
指令跟随微调（Supervised Finetuning）：
- 适用场景：使模型根据任务指令进行特定任务。
- 训练数据：高质量的对话、问答数据。

微调的优势

适用微调的情况

不同数据集下的微调策略

微调指导事项

替换softmax层：通常截断预训练网络的最后一层（softmax层），并用与问题相关的新softmax层替换。例如，将ImageNet上1000个类别的softmax层替换为10个类别的新softmax层，并运行预训练的权重。
使用较小的学习率：微调时使用较小的学习率，以避免过快地扭曲已训练好的权重。通常将初始学习率设置为从头开始训练的学习率的10倍。
训练层选择：数据集数量少时，只训练最后一层；数据集数量中等时，冻结预训练网络的前几层的权重，以捕捉通用特征并专注于深层的特定特征。

LoRA

LoRA（Low-Rank Adaptation）是一种高效的微调方法，具有以下优势：