【最强推理模型OpenAI o1】通过训练思想链提升模型推理能力

OpenAI o1,这是一种新的大型语言模型,经过强化学习训练可以执行复杂的推理,o1 在回答之前会思考,它可以在回应用户之前产生一个长长的内部思路链。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

1.o1推理能力更强

在OpenAI的测试中,o1在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现它在数学和编码方面表现出色,在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而o1得分为 83%。他们的编码能力也有极大提升,并在 Codeforces 比赛排名第 89 位。
在这里插入图片描述

2.o1的安全性更高

得益于提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则,通过能够在上下文中推理安全规则,它可以更有效地应用它们。 衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,模型如何继续遵循安全规则。在最严格的越狱测试之一中,GPT-4o 得分为 22(0-100 分制),而 o1 预览模型得分为 84。

3.o1更符合人类偏好

除了考试和学术基准之外,OpenAI还在广泛领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。在这次评估中,人类训练师看到了对 o1-preview 和 GPT-4o 提示的匿名回答,并投票选出他们更喜欢的回答。在数据分析、编码和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 gpt-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。

4.如何使用

1.ChatGPT Plus 和 Team用户
能够在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在发布时,每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。官方表示正在努力提高这些发送次数,并使 ChatGPT 能够根据给定的提示自动选择正确的模型。

2.ChatGPT Enterprise 和 Edu用户将从下周开始使用这两种模式
符合API 使用等级 5 的开发人员现在可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。官方表示正在努力在进行额外测试后提高这些限制。这些模型的 API 目前不包括函数调用、流式传输、对系统消息的支持和其他功能。

3.ChatGPT Free 用户暂时不支持使用,但是官方表示计划向所有ChatGPT Free 用户提供 o1-mini 访问权限,敬请期待。

5.注意

1.o1选择了向用户隐藏思想链.
官方表示:“在权衡了用户体验、竞争优势以及是否要进行思路链监控等多种因素后,我们决定不向用户展示原始思路链。我们承认这一决定有弊端,我们努力通过训练模型在答案中重现思想链中的所有有用想法来部分弥补这一缺点。”
2.此次仅发布了o1-mini 和o1-preview ,o1不久即将正式发布使用
OpenAI o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤其有效。作为一款较小的模型,o1-mini 比 o1-preview 便宜 80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。
3.作为早期模型,它还不具备 ChatGPT 的许多实用功能,例如浏览网页信息以及上传文件和图片。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值