【2025】什么是大模型微调?大模型微调有哪些流程,(非常详细)从零基础到精通,收藏这篇就够了!

大模型微调(Fine-tuning)是一种在深度学习领域,特别是基于预训练大模型的基础上进行的优化技术,以下是关于它的详细介绍:

  1. 基本概念:
  • 从字面意思理解,是在通用大模型的基础上,针对超出其范围或不擅长的特定领域或任务,使用专门的数据集或方法对模型进行相应的调整和优化,以提升其在该特定领域或任务中的适用性和性能表现。
  1. 原理及过程:
  • 利用预训练模型:预训练大模型是在大规模通用数据上经过无监督或自监督学习得到的,已经具备了对各种数据的通用理解和表示能力。例如,像 GPT、BERT 等预训练模型,在海量的文本数据上学习到了语言的语法、语义等知识。在微调过程中,首先加载这些预训练好的模型作为基础。

  • 使用特定任务数据进行训练:准备与目标任务相关的少量标注数据,这些数据要能反映目标任务的特点和需求。然后,使用这些数据在预训练模型的基础上进行有监督学习,通过调整模型的参数,使模型适应特定任务。比如,如果要微调一个用于情感分析的模型,就需要准备带有情感标签(积极或消极等)的文本数据。在训练过程中,模型根据输入文本和对应的情感标签来调整参数,以提高对情感分析任务的准确性。

  1. 优势:
  • 节省训练成本和时间:相比于从头开始训练一个全新的模型,大模型微调所需的数据量和计算资源要少得多。因为预训练模型已经学习到了通用的知识和特征,只需要在其基础上进行微调即可,大大缩短了训练时间和降低了训练成本。

  • 提升模型性能:预训练模型具有强大的泛化能力,通过微调可以将其泛化能力迁移到特定任务上,从而提高模型在该任务上的性能。例如,在图像分类任务中,使用在 ImageNet 上预训练的模型进行微调,往往能够比从头训练的模型取得更高的准确率。

  • 易于实现和应用:大模型微调的技术相对成熟,有很多现成的工具和框架可供使用,使得开发者能够快速上手并应用到实际项目中。

  1. 技术路线分类:
  • 全量微调(Full Fine-tuning,FFT):用特定的数据对大模型进行训练,调整模型的全部参数,使模型在特定任务上的性能达到最优。这种方法的优点是能够充分利用特定任务的数据进行优化,效果可能较好,但缺点是训练成本较高,且可能会出现灾难性遗忘的问题,即可能会影响模型在其他领域的表现。

  • 参数高效微调(Parameter-Efficient Fine-tuning,PEFT):只对部分参数进行训练,以减少训练的参数量和计算成本。常见的 PEFT 方法包括 Prefix-tuning(在模型的输入或隐层添加额外可训练的前缀)、Adapter-tuning(在预训练模型的每一层插入较小的神经网络层或模块)、LoRA(通过学习小参数的低秩矩阵来近似模型权重矩阵的参数更新)等。

    总之,大模型微调是一种在预训练模型基础上进一步优化模型性能的有效方法,在自然语言处理、计算机视觉等领域得到了广泛的应用。

参考现有的中文医疗模型:MedicalGPT[1]、CareGPT[2]等领域模型的训练流程,结合 ChatGPT 的训练流程,总结如下:

在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使 LLM 更有用更安全的响应用户的提示。

训练流程的四个阶段,分别如下:

  1. 预训练(pre-training,pt),基于基座模型,经过海量中文医疗预料训练,得到领域适配的 ChatGLM-6B。

  2. 监督微调(supervised finetuning,sft),通过在线问诊等数据,构建训练数据完成指令微调。

  3. RM 模型构建(reward modeling, rm),人工对预测答案排序,训练一个打分模型

  4. 强化学习阶段(reinforcement learning, rl),基于 PPO 算法,采用 RL 的方式,完成 fine-tuned ChatGLM-6B 模型的优化。

预训练阶段-PT

该阶段的训练数据格式如下。对应是非结构化的自然语言文本,通过设定 max_seq_len 和 block_size 等方式,实现文本数据的 chunk,batch 化,作为模型的训练数据,处理完的单条数据包含 input_ids,attention_mask 和 labels;训练的目标是模型需要根据提供的文本来预测 下一个单词。

监督微调阶段-SFT

该阶段的训练数据格式如下。一般对应的结构采用 instruction/input/output/history,根据不同的场景,input 与 history 可以做缺省处理。但是需要人工标注的指令数据集。

对齐

该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐,这也是 RHLF 机制的作用。 RLHF 主要包括两步:

  1. 基于有监督微调模型基础上创建一个 reward model(RM)模型;

  2. 基于 RM 模型使用 PPO/DPO 算法微调 SFT 模型,返回最佳 response。

奖励模型-RM

该阶段是 RHLF 的第一个阶段,训练得到一个 rm 模型用于 rl 阶段的模型打分,其结构格式如下:有多种格式的数据,可自己选择,但需要程序做额外的处理,且这些数据都是人工标注好的。

强化学习-RL

该阶段是 RHLF 的第二个阶段,也是核心部分,用于优化一个 RM 模型,并完成打分。数据格式同 SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现;引导优化后的大模型生成更符合人类偏好的内容。

## AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值