大模型（LLM）微调方法分类框架

最新推荐文章于 2025-03-15 19:39:34 发布

Bug_makerACE

最新推荐文章于 2025-03-15 19:39:34 发布

阅读量562

点赞数 21

文章标签：分类人工智能数据挖掘深度学习 nlp 机器学习 transformer

本文链接：https://blog.csdn.net/Bug_makerACE/article/details/146141616

版权

大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架，结合技术原理、应用场景和资源需求，帮助你理解不同方法的定位和特点：

类别	核心思想	典型方法	特点
全参数微调	调整模型所有参数（传统微调方式）	Fine-tuning	资源消耗大，容易过拟合，但性能上限高
参数高效微调	冻结主模型参数，仅调整少量新增参数	LoRA、Adapter、Prefix-Tuning	节省显存和计算资源，适合资源受限场景
提示学习	通过设计输入模板（Prompt）引导模型输出	Prompt Tuning、P-Tuning	无需修改模型结构，依赖Prompt工程
强化学习微调	结合人类反馈或奖励模型优化生成结果	RLHF、PPO	适合对齐人类价值观（如ChatGPT），训练复杂度高
知识蒸馏	用大模型指导小模型训练	DistilBERT、TinyBERT	压缩模型体积，适合部署到边缘设备

类别	参数调整比例	示例方法	适用场景
全参数调整	100%	Full Fine-tuning	资源充足，追求最高性能
部分参数调整	<10%	LoRA、Adapter	资源有限，多任务适配
零参数调整	0%	Prompt Tuning	黑盒模型，无法修改参数

类别	适用任务	典型方法	特点
单任务微调	单一任务优化（如文本分类）	Full Fine-tuning、LoRA	专注特定任务性能提升
多任务联合微调	同时优化多个相关任务	Multi-Task Learning (MTL)	提升模型泛化能力，需任务间相关性高
持续学习	逐步学习新任务而不遗忘旧任务	EWC、Replay-based Methods	解决灾难性遗忘问题

类别	监督信号类型	示例方法	特点
有监督微调	人工标注数据	传统Fine-tuning	依赖标注质量，成本高
弱监督/自监督	自动生成标签或利用模型自身输出	STF、Self-Training	减少人工标注依赖
人类反馈强化学习	人类对模型输出的偏好评分	RLHF、RRHF	对齐人类意图，适合对话和生成任务

类别	目标	典型方法	应用场景
通用领域微调	提升模型通用能力	Full Fine-tuning	通用任务（如GLUE基准）
垂直领域适配	适配特定领域（医疗、法律等）	Domain-Adaptive PT	需领域数据，解决领域术语和知识差异

类别	修改内容	示例方法	灵活性
结构修改型	添加新模块（如Adapter层）	Adapter、LoRA	需调整模型结构
参数扰动型	在原参数上引入低秩变换或稀疏化	Diff Pruning、BitFit	无需修改结构，直接操作参数
输入引导型	仅修改输入（Prompt）	Prompt Tuning	完全保持原模型不变