大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架,结合技术原理、应用场景和资源需求,帮助你理解不同方法的定位和特点:
1. 按微调策略分类
类别 | 核心思想 | 典型方法 | 特点 |
---|
全参数微调 | 调整模型所有参数(传统微调方式) | Fine-tuning | 资源消耗大,容易过拟合,但性能上限高 |
参数高效微调 | 冻结主模型参数,仅调整少量新增参数 | LoRA、Adapter、Prefix-Tuning | 节省显存和计算资源,适合资源受限场景 |
提示学习 | 通过设计输入模板(Prompt)引导模型输出 | Prompt Tuning、P-Tuning | 无需修改模型结构,依赖Prompt工程 |
强化学习微调 | 结合人类反馈或奖励模型优化生成结果 | RLHF、PPO | 适合对齐人类价值观(如ChatGPT),训练复杂度高 |
知识蒸馏 | 用大模型指导小模型训练 | DistilBERT、TinyBERT | 压缩模型体积,适合部署到边缘设备 |
2. 按参数效率分类
类别 | 参数调整比例 | 示例方法 | 适用场景 |
---|
全参数调整 | 100% | Full Fine-tuning | 资源充足,追求最高性能 |
部分参数调整 | <10% | LoRA、Adapter | 资源有限,多任务适配 |
零参数调整 | 0% | Prompt Tuning | 黑盒模型,无法修改参数 |
3. 按任务类型分类
类别 | 适用任务 | 典型方法 | 特点 |
---|
单任务微调 | 单一任务优化(如文本分类) | Full Fine-tuning、LoRA | 专注特定任务性能提升 |
多任务联合微调 | 同时优化多个相关任务 | Multi-Task Learning (MTL) | 提升模型泛化能力,需任务间相关性高 |
持续学习 | 逐步学习新任务而不遗忘旧任务 | EWC、Replay-based Methods | 解决灾难性遗忘问题 |
4. 按监督信号来源分类
类别 | 监督信号类型 | 示例方法 | 特点 |
---|
有监督微调 | 人工标注数据 | 传统Fine-tuning | 依赖标注质量,成本高 |
弱监督/自监督 | 自动生成标签或利用模型自身输出 | STF、Self-Training | 减少人工标注依赖 |
人类反馈强化学习 | 人类对模型输出的偏好评分 | RLHF、RRHF | 对齐人类意图,适合对话和生成任务 |
5. 按领域适配性分类
类别 | 目标 | 典型方法 | 应用场景 |
---|
通用领域微调 | 提升模型通用能力 | Full Fine-tuning | 通用任务(如GLUE基准) |
垂直领域适配 | 适配特定领域(医疗、法律等) | Domain-Adaptive PT | 需领域数据,解决领域术语和知识差异 |
6. 按模型修改程度分类
类别 | 修改内容 | 示例方法 | 灵活性 |
---|
结构修改型 | 添加新模块(如Adapter层) | Adapter、LoRA | 需调整模型结构 |
参数扰动型 | 在原参数上引入低秩变换或稀疏化 | Diff Pruning、BitFit | 无需修改结构,直接操作参数 |
输入引导型 | 仅修改输入(Prompt) | Prompt Tuning | 完全保持原模型不变 |
学习建议
- 基础入门:从全参数微调(Fine-tuning)和参数高效方法(如LoRA)开始,理解微调的本质。
- 对比实验:在相同任务上尝试不同方法(如LoRA vs Adapter),分析显存、速度和性能差异。
- 领域深入:选择垂直领域(如医疗文本)实践领域适配方法(Domain-Adaptive Tuning)。
- 进阶探索:研究RLHF和持续学习,解决对齐与遗忘问题。
方法选择指南
- 资源有限 → 参数高效微调(LoRA/Adapter)
- 黑盒模型 → 提示学习(Prompt Tuning)
- 人类反馈 → RLHF/RRHF
- 多任务需求 → 多任务联合微调
- 模型压缩 → 知识蒸馏
通过这个框架,你可以快速定位不同方法的适用场景和技术特点,逐步构建系统化的知识体系。