OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI“双12”直播第二天,依旧简短精悍,主题:

新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢?最低几十个例子就可以。

CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”

a5be403b05b0aba026b4d7c2b6af8f23.png

那么效果有多棒呢?

微调后的o1-mini模型得分提高80%,直接反超o1正式版。

f1ed2054e7bacaeb57e1d47661d95caa.png
d4ddcc3beb606465e2d36f0e6f2ec528.png

目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。

进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

28a7447bb887216845cd1731a78df02a.png

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼,而是授人以渔”

e8aed0ca352815e3c6c044be5524388e.png

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员,还有伯克利实验室计算生物学家Justin Reese,他们共同演示了强化微调功能的全过程。

09c5d103faf3c81efe85cf25980054d3.png

具体来说,这是一个生物医学任务,AI需要根据病例描述的症状,找出相关基因。

训练数据长这样:

病人信息:51岁女性,疾病发病时间未具体说明。

症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍

未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。

bb75881d5eef6e73a930660ab4fcde34.png

评分模型(Grader)会对模型的答案进行评分,OpenAI会提供不同的评分模型,并支持自定义。

870432d3375eaa59b80ae8abea065606.png

强化微调步骤很简单,在网页界面可选择训练集和验证集。

0e1a7c9d4ad0bc0c01093618e89168a8.png

再根据情况配置超参数即可。

aa1f3e94328256c48d1613525e8b8935.png

微调过程中,可以观察模型性能指标的变化趋势。

9d1fca7b52cd222e6fdb338466fc9eb4.png

测试完成后,也可以查看模型对每条验证数据的输出,这里TSC2基因是正确答案,模型把它排在第一位,所以通过。

2e7f0b162b742b6e3a6ecdd07e69f741.png

目前OpenAI内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布,对企业、大学和研究院已开放申请测试通道。

b384b81f5c305830f073d1c8ddcae2fd.png

看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。

5af8917753a0f4290245622bc8ac309e.png

奥特曼默认会发Sora

OpenAI直播第二天,对比第一天o1正式发布、立等可用,似乎平淡了一些。

有不满足的网友表示:where is GPT-4.5?

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

e60f952fcd05bb32150c7966548ec496.png

不过,有网友钓鱼钓出了奥特曼,且奥特曼没有否认会发布Sora的消息。

bc761d3d9e3ccbc5e3f46f0a8ef9bc57.png

参考链接:
[1]https://openai.com/form/rft-research-program/

MEET2025大会在即

倒计时一周 ⏰ 欢迎报名

🌟 一年一度的科技顶流盛会就要来了!

☄️ 两场GenAI Talk一场具身智能圆桌,直指时下热门议题!工业界学术界顶流大咖齐聚,还有两份关键参考「年度AI趋势报告」「2024人工智能年度评选」榜单即将发布!了解详情

🚀 点击报名参会,12月11日,期待与您一起预见智能科技新未来!

75defdf3745eb18a188cdead2c0b5cd9.png

d6c45f8429b38ff1d4b8a2e53c6e6aac.png

430f4c32e5cbe0f7f917a05128a5e11e.png

263158d64d40cd512fdff218172e1eb8.png

bc8be80015517b40d7dd05df33b03b8a.png

4cdd4b2f3320739c65a4cf9d81e68bbc.png

74ef5df7483e631cf42c421a30343fba.png

9af6a6f6c95a4543325658a5af4a0065.png

790ad6209521362694356a38ce7c38e0.png

d8644db5b6bca23f67e203617d5bca1a.png

4569956e1ebb210aa43919bfd72eafbb.png

c5b8d2f7888f4b9bcc6809afbc9ef46b.png

9f48939ee36fc4182afd0aa1e0fd154f.png

974ef210b0cd0462123f34cae3a65f20.png

ea20df640792718e7076201e60721472.png

f7446a15eaa3d7fddc0566c693d6531d.png

1669ebc5e6b6ca41cbff9a666166172e.png

3aa418ca48086f233bb15c41c48027fe.png

6a837efa3b90b9959000e7941069d0f6.png

6aa0ab2faa98f27fb48de05957eb0405.png

91cea8f73674da1ea8567360244ac2a2.png

01b17303c27a16acef9063f1112d2c71.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值