OpenAI发布首款推理能力模型 o1,擅长复杂科学|编码|数学问题

OpenAI 正在发布一款名为 o1 的新模型,这是计划中的一系列"推理"模型中的第一个OpenAI o1-preview ,将与 o1-mini 同时发布,后者是一个更小、更便宜的版本。这就是前几天热搜所说的草莓模型。他们可以推理完成复杂的任务并解决比以前的科学、编码和数学模型更难的问题。

在这里插入图片描述

运作方式

OpenAI o1

训练这些模型在问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI o1 在数学和编码方面表现出色。在国际数学奥林匹克竞赛 (IMO) 的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而o1 模型得分为 83%。OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89 个百分位,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。
在这里插入图片描述

OpenAI o1-mini

OpenAI o1-mini 在 STEM 方面表现出色,尤其是数学和编码,几乎与 OpenAI o1 在 AIME 和 Codeforces 等评估基准上的表现相当。我们预计 o1-mini 将成为一种更快、更具成本效益的模型,适用于需要推理但没有广泛知识的应用程序。

安全性

我们衡量安全性的一种方法是,在用户试图绕过安全规则(称为“越狱”)时,我们的模型继续遵守其安全规则的程度。在我们最难的越狱测试之一中,GPT-4o 得分为 22(0-100 分),而我们的 o1-preview 模型得分为 84。

适用对象

作为早期模型,OpenAI o1还不具备使 ChatGPT 有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o 在短期内会更有能力。它被命名为 o1,表示"将计数器重置回 1"。

如果您正在处理科学、编码、数学和类似领域的复杂问题,这些增强的推理功能可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值