12 Days of OpenAI:Day 2·Reinforcement Fine-Tuning

Day2:

bf87981df1af40c5bb5f1faba42ca436.jpg

OpenAI 的 12 天计划进入了第 2 天。凌晨两点,我们迎来了一个开发者和研究者更感兴趣的产品:Reinforcement Fine-Tuning,即强化微调。

参与发布的四人组是 OpenAI 研究副总裁 Mark Chen、OpenAI 技术员 John Allard 和 Julie Wang、Berkeley Lab 的环境基因组学和系统生物学研究者 Justin Reese。

正如小型发布会上所说,RFT也许正式代表o1时代下将更多的人或模型更平滑而自然的带入到rl×llm所创造的复杂推理空间中来,为什么这么说呢?

首先我们先来看看这句话:“强化微调不仅会教模型模仿其输入,更是会让其学会在特定领域以新的方式进行推理。” 那么,都是FT,怎么做到“授人以鱼”和“授人以渔”的区别呢?

我想关键的重点在于“任务监督信号”,即那个“Grader”上,让我想想,从哪里说起呢?(我这个像不像o1或其他test-time Model的套路,哈哈,装下~)

156847410c8d4beea60f8b13bff2a339.png

好吧,还是要回到今年年初自己写的长篇技术文章「融合RL与LLM思想,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值