1、背景
本节我们来探讨DeepSeek R1的一个热门技术应用方向——模型微调。将 重点介绍如何使用主流微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并详细 介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个医学数据集上完成高效微 调实战,并最终达到问答风格优化+知识灌注目的,让模型在微调过程中掌握复杂医学问题的专业推理过 程,并提高疾病诊断的准确率。
- 硬件要求:本节公开课最小化复现仅需7G显存、半小时运行时间即可完成,并获得微调效果。
- 训练流程迁移:本次介绍的DeepSeek R1模型的高效微调流程可以迁移至DeepSeek R1任意 蒸馏模型、任意COT数据集,甚至是进行DeepSeek R1模型高效微调。
2、微调(高效微调与LoRA、 QLoRA)
尽管全量微调可以对模型的能力进行深度改造,但要带入模型全部参数进行训练,需要消耗大量的 算力,且有一定的技术门槛。相比之下,在绝大多数场景中,如果我们只想提升模型某个具体领域的能 力,那高效微调会更加合适。尽管在2020年前后,深度学习领域诞生了很多高效微调的方法,但现在适 用于大模型的最主流的高效微调方法只有一种——LoRA。
LoRA( Low