大模型 | 一文解析对强化微调(RFT)的理解及看法

这篇文章给大家分享一下我的理解。

首先给出我的结论:RFT 并不是新的技术范式,而是 PPO 技术范式下的新应用范式,RFT 相比于传统 PPO 的创新点是 rule-based reward_model。

叠甲声明:RFT 属于应用范式,RFT 依赖的是 rule-based reward_model ,这两个观点属于个人看法,如有不对,还望轻喷。至于 “dozens of data” 就能生效,是不是能间接说明 RFT 相较于 PPO 之外,有更多的细节,我目前没有从 OpenAI 纰漏的 demo 中观察出来。

一、RFT 是什么

从 OpenAI 展示的内容中,我们可以这么理解:RFT 就是针对给定 prompt,产生一些包含 cot 的 response ,再通过一个 verifier 来判断 response 是否正确,作为信号来指导模型进行参数更新。

抛开 cot 过程不谈,如果我们把这套流程的 verifier 换成 reward_model ,这个流程看上去是不是感到很熟悉?—— 那就是最传统的基于 PPO 的 RLHF。

好,目前为止,在我的认知中,RFT 和 RLHF 唯一的区别就是,它的 return (reward 信号) 是通过 verifier 算出来的,而不是一个 reward_model 计算出来的。verifier 本身则可以看成是一个 rule,比如 math 任务的答案是否正确,code 任务的代码是否能执行 …… 因此, RFT = PPO + rule_based reward_model

二、RFT 的价值

OpenAI 在介绍 RFT 的时候说了这样一句话:“RFT 旨在使开发者和机器学习工程师能够创建专门针对特定复杂、特定领域任务的专家模型”。这就是 RFT 的价值:只要能定制好一个任务的 verifier,那么 RFT 便可以在这个新的领域场景,以十分之一或更少的数据,轻松超过 SFT 的结果。当然,用 PPO 训练模型能带来的所有收益也都是 RFT 的优点,这里就不赘述了。

介绍中还提到,RFT 擅长解决法律、保险、医疗、金融和工程领域等任务,而这些任务通常有明确的“正确答案”。是因为 RFT 只适合答案固定的场景吗?不是,仅仅是因为答案固定的场景 verifier 非常容易制定。

Sam Altman 在直播中认为 RFT 是 2024 最牛的技术进展,能帮助大家搞定专业模型的训练。说的没错,RFT 在大模型应用方向确实是划时代的,因为它真的能帮 OpenAI 卖更多的定制化服务。LLM 从业者们也能从中些许受益,掌握了 RFT 技术后,以后老板再提出做一个新的应用模型,我们就不需要再枯燥的标注大量的 SFT 数据,而是花一点时间训个 verifier 即可。

三、字节的 ReFT

说完 OpenAI 的 RFT,我们再来聊聊字节的 ReFT。字节的 ReFT 可以看作是 OpenAI 的 RFT 在数学任务上的一个极简版实现方案(仅从 OpenAI 纰漏出来的细节,我没看出来二者有本质的区别,或许 dozens of data 这几个单词背后埋藏了更多的技术细节):

  • SFT 得到一个较好的模型;

  • 给定 prompt,do_sample 多次,生成一些带 cot 的 response;

  • 答案正确,1 分;答案错误,0.1 分;提取不到答案(说明没有 follow 输出格式),0分;

  • 根据 returns 更新模型。

如果我们现在再读 ReFT 论文,会觉着这篇论文并没有太多的闪光点,好像里面提到的方案自己也都能想到。我想说的是:ReFT 这篇论文,好就好在它是在 o1 之前发表的。因为 o1 的出现,“cot 的推理过程,MCTS 采样,PRM,ORM,rule-based reward_model” 等概念,已经在 LLM 圈深入人心了。大家顶着 o1 的知识背景,回头看今年上半年的创新工作,自然会觉着有些稚嫩。

ReFT 这篇论文固然伟大,但就像我前面说的,RFT 只是 PPO 技术范式下的一个新应用范式。它本身并不是一个全新的技术范式,所以我个人觉着谈不上说谁首创了这个技术范式。

四、RFT 会改变什么

对于字节这样的算力大厂,本来就有卖大模型服务的业务线,那么 RFT 既然能帮 OpenAI 卖服务,自然也能帮字节卖服务。所以大厂需要立刻跟进这项应用技术。

对于 LLM 的普通从业者,短期内则是无事发生,该训 SFT 还得训,该洗数据还得洗。但长远来看,我们的心态和学习方向需要发生变化,我们必须留意到,这已经是 OpenAI 今年第二次告诉大家说 PPO 真的很重要了,上一次是 o1。如果大家还是“两耳不闻强化事,一心只搞 dpo”,我只能说心态确实够顶。


最后:如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值