①强化学习微调(Reinforcement Fine-Tuning): 仅需少量高质量数据(数十到数千个),模型即可通过强化学习处理复杂任务。
②偏好微调 (Preference Fine-Tuning, PFT) : 采用直接偏好优化 (例如Direct Preference Optimization, DPO) 算法,通过比较不同的模型输出,让 AI 能够学习并区分 “更好” 的回复,从而在语气、风格、创造性等主观性任务上表现更出色。
在解释这些概念之前,让我们先理解一下:
一、微调(Fine-tuning):
(1)什么是微调?
我们可以将现在使用的大语言模型想象成一座巨大的图书馆,蕴藏着海量知识。
之前大家所熟知的是,提示词工程(Prompt Engineering):在提示词中加入指令,有时也会加入一些示例(few shots)。这种通过演示引导模型完成任务的方法,被称为“少样本学习”(few-shot learning)。
微调,则是在“少样本学习”基础上的进一步提升。具体而言,我们会使用特定领域的数据来训练模型,从而使其在特定领域上表现得更加出色。换言之,微调是对模型进行针对性的“特训”,使其更好地适应特定场景。
与直接使用提示词相比,微调具有以下优势:
-
(在目标领域) 效果更佳: 微调后的模型能输出更高质量的结果。
-
训练数据更多: 如果采用 few-shots 的方法,因为模型的上下文窗口限制,无法放下太多的数据,而且有很多相关研究发现模型在超长 context length 下的表现可能不如短上下文。同时,微调可以使用的数据量是不受限制的。
-
更省 Token: 微调后,提示词可以更短,从而节省 token。
-
回复 速度更快: 更短的提示词意味着更快的回复速度(主要是减少 prefill 时间)。
(2)什么时候该用微调?
微调能让模型在特定应用场景中表现更出色,但需要投入更多时间和精力,还有训歪的风险。因此我们还是应该首先尝试:提示词工程(Prompt Engineering),或者用 prompt 组成一些复杂的工作流。另外函数调用(Function Calling)可能也是一个选项,但效果可能不会太好。
一般来说,以下情况下,可以考虑使用微调:
-
提示词效果不理想: 即使反复调整提示词,模型仍然无法很好地完成任务。
-
需要大量训练数据: 如果有大量特定领域的训练数据,而提示词无法容纳,则微调是更佳选择。
-
需要更快响应和更少 Token: 微调可以帮助缩短提示词,从而提高回复速度并减少 token 消耗。
二、强化学习微调(Reinforcement Fine-Tuning):
强化学习微调只需要少量(数十至数千个)高质量数据,就能使模型通过强化学习处理目标领域的复杂任务。
它的目标是训练模型学会推理过程,而不仅仅是记住答案,从而提高模型的泛化能力和专业水平。
-
少量高质量数据驱动: RFT 的核心优势在于仅需少量高质量数据即可显著提升模型性能,比 SFT 的数据效率要高。
-
强化学习算法: RFT 采用强化学习算法,通过对模型输出的答案进行评分,并强化正确的推理路径,引导模型的学习。
-
提升推理能力: RFT 不仅仅是让模型模仿输入,而是训练模型如何在特定领域进行推理,这使得模型在解决相似问题时,能够更加灵活和准确。它是在训练模型学习如何思考,而不仅仅是记住答案。
-
适用于专业领域: RFT 特别适合于需要专业知识的领域,如法律、金融、工程、保险等,这些领域通常有明确的正确答案,并且需要复杂的推理过程。
-
与 SFT 的区别: 与传统的监督式微调(SFT)不同,RFT 更侧重于训练模型的推理能力,而不是简单地记忆训练数据。 RFT 可以被看作是对 SFT 的一种补充和改进,它将强化学习的优势融入到了模型微调的过程中。
总结来说:RFT 不仅仅是简单的微调,更是一种训练模型思考和推理的方法。 可以将其视为一个“特训班”,通过少量高质量案例和强化学习,让模型成为特定领域的专家,而不仅仅是“复读机”。
(这里可以参考 24 年初的一篇论文:REFT: Reasoning with REinforced Fine-Tuning)
SFT和ReFT在CoT替代方案存在时的比较:
三、偏好微调 (Preference Fine-Tuning, PFT) :
PFT 算是一个一直有的概念,openai 这次又提了一次。常说的 RLHF,DPO(Direct Preference Optimization 直接偏好优化)都属于偏好微调,通过比较不同的模型输出,让 AI 学习并区分哪些是“更好”的回复,从而在语气、风格、创造性等任务上表现更符合人的偏好。OpenAI 在blog 中已经把 PFT等价与 DPO 了,以下我们也聚焦在 DPO 上
-
成对比较学习: PFT 的核心机制是通过比较模型输出的一对回复,让模型学习并区分哪个是更优选的。
-
直接偏好优化 (DPO) 算法: 通过比较成对的回复,直接优化模型以偏向更优选的输出。 避免了复杂的奖励模型训练。
-
训练数据来源多样: PFT 的训练数据可以是人工标注、A/B 测试或合成数据生成的成对回复。
-
适用于主观任务: PFT 特别适用于那些 “更好” 的回复具有主观性的任务,例如:
-
创意写作
-
内容摘要
-
对话风格调整
-
主观评估任务
-
增强模型在风格、语气、创造性等方面的能力: 你可以把 PFT 看作是一个 “品味训练班”,它通过比较模型生成的不同回复,教会模型理解用户和开发者的 “品味”, 从而让模型输出更符合人类期望的,更具创造性和个性化的内容。
与监督式微调 (SFT) 的区别:
简单来说: 这是一种以偏好为导向的微调方法,而非以正确性为导向的微调方法。它采用了 DPO 算法,使其训练过程更加高效。PFT 尤其擅长处理主观性较强的任务,例如需要创造力或需要特定风格的任务。PFT 的训练数据通常包含成对的优选和非优选的回复, 而不是精确的输入输出对。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
如果你真的想学习大模型,请不要去网上找那些零零碎碎的教程,真的很难学懂!你可以根据我这个学习路线和系统资料,制定一套学习计划,只要你肯花时间沉下心去学习,它们一定能帮到你!
大模型全套学习资料领取
这里我整理了一份AI大模型入门到进阶全套学习包,包含学习路线+实战案例+视频+书籍PDF+面试题+DeepSeek部署包和技巧,需要的小伙伴文在下方免费领取哦,真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
六、deepseek部署包+技巧大全
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~