15、DeepSeek R1高效微调实战

1、背景

本节我们来探讨DeepSeek R1的一个热门技术应用方向——模型微调。将 重点介绍如何使用主流微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并详细 介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个医学数据集上完成高效微 调实战,并最终达到问答风格优化+知识灌注目的,让模型在微调过程中掌握复杂医学问题的专业推理过 程,并提高疾病诊断的准确率。

  • 硬件要求:本节公开课最小化复现仅需7G显存、半小时运行时间即可完成,并获得微调效果。
  • 训练流程迁移:本次介绍的DeepSeek R1模型的高效微调流程可以迁移至DeepSeek R1任意 蒸馏模型、任意COT数据集,甚至是进行DeepSeek R1模型高效微调。

2、微调(高效微调与LoRA、 QLoRA)

尽管全量微调可以对模型的能力进行深度改造,但要带入模型全部参数进行训练,需要消耗大量的 算力,且有一定的技术门槛。相比之下,在绝大多数场景中,如果我们只想提升模型某个具体领域的能 力,那高效微调会更加合适。尽管在2020年前后,深度学习领域诞生了很多高效微调的方法,但现在适 用于大模型的最主流的高效微调方法只有一种——LoRA。

LoRA( Low

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Andy_shenzl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值