微调数据需求取决于任务难度、模型规模、微调方式和数据质量,可从以下四方面评估:
1. 任务难度:模型需学习多少新知识
- 格式化任务(如 AI 标题):仅需学习特定风格,1万~5万条高质量数据即可。
- 行业知识任务(如医疗、法律):需学习新知识,至少10万~50万条数据。
- 复杂任务(如 AI 客服):需覆盖多种场景,通常10万+条较稳妥。
2. 模型规模:大模型 vs. 小模型
- 大模型(7B+):已有强泛化能力,1万~10万条高质量数据可能够用。
- 小模型(1B~7B):参数少,需10万~50万条数据增强泛化能力。
3. 微调方式:不同方法对数据量要求不同
- Prompt 优化:几百~几千条示例即可,无需微调。
- 轻量微调(LoRA、Adapter):1万~10万条数据能有效提升特定任务。
- 完整微调(Full Fine-tuning):10万~50万条数据更稳妥,适合小模型或行业定制。
4. 数据质量 vs 数据量
- 高质量数据优先:1万条高质量数据 > 10万条低质量数据。
- 数据需覆盖多样化场景
总结:评估微调数据量的核心逻辑
1. 看任务难度:
- 简单任务(格式化生成,如 AI 标题) → 1万~5万条数据。
- 复杂任务(行业知识、客服对话) → 10万~50万条数据。
2. 看模型规模:
- 大模型(7B 以上) → 1万~10万条高质量数据可能够用。
- 小模型(1B~7B) → 10万~50万条数据更稳妥。
3. 看微调方式:
- Prompt 优化 → 几百到几千条示例即可。
- LoRA 轻量微调 → 1万~10万条数据就能显著提升效果。
- 完整微调(Full Fine-tuning) → 至少10万~50万条数据。
4. 看数据质量:
- 1万条高质量数据可能胜过10万条低质量数据