全面解读OpenAI o1三部曲:上篇-概述

简介

小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖海参的小女孩。前几天(9月12日),OpenAI发布了o1系列模型。该系列的模型旨在让模型在回答之前花更多时间思考。这类似诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》提到的"慢思考"。这种主打"慢思考"的模型与之前的模型相比,能够在科学、编程和数学领域中完成复杂任务和解决更难的问题。简而言之,"慢思考"模型在逻辑推理等理工科任务上,刷到一个新的高度!真的遥遥领先!堪称地表最强理科王者!

小窗幽记机器学习

记录机器学习过程中的点点滴滴和坑坑洼洼

公众号

原理

OpenAI训练这些模型,使其在回答之前花更多时间思考问题,这个过程与人类一样。通过训练,它学会了优化自己的思考过程,尝试不同的策略,并识别自己的错误。

在官方的评测中,OpenAI o1在物理、化学和生物学这些极具挑战性的基准任务上的表现与博士生不相伯仲。此外,模型在数学和编程方面表现也非常出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而OpenAI o1取得83%的得分。在编程能力评估中,openAI o1在Codeforces竞赛中达到了第89百分位。更多的技术研究细节,可以查看本次推文的第2篇文章:《全面解说OpenAI o1三部曲:中篇-原理》。

OpenAI o1作为早期模型,尚未具备许多像ChatGPT有用的功能,例如浏览网络搜索信息或上传文件及图片等。鉴于这些方面的不足,在许多常见的使用场景下,短期内GPT-4o仍然是更具竞争力的。

但对于复杂的推理任务而言,OpenAI o1是一个重大的进步,代表了人工智能在这方面的最高水准。因此,官方将计数器重置为1,并将这一系列命名为OpenAI o1。

安全性

作为开发这些新模型的一部分,OpenAI提出了一种新的安全训练方法,利用它们的推理能力使其遵循安全和对齐指南。通过能够在上下文中推理官方设置的安全规则,模型可以更有效地应用这些规则。

测试模型的时候,通过让用户尝试绕过安全规则(称为“越狱”)时能否继续遵循安全规则来衡量安全性。在难度最高的越狱测试中,GPT-4o的得分是22(在0-100的范围内),而OpenAI o1-preview 模型得分为84。

为了匹配这些模型的新能力,OpenAI 官方表示,加强了安全工作、内部治理和与联邦政府的合作。这包括使用OpenAI之前的框架( https://cdn.openai.com/openai-preparedness-framework-beta.pdf )的严格测试和评估、一流的红队测试以及包括安全与安全委员会在内的董事会级别审查过程。

适用对象

OpenAI o1系列适用于解决科学、编程、数学及类似领域中对推理能力要求较高的复杂问题。例如,o1可以用于医疗研究人员标注细胞测序数据,或者物理学家用于生成量子光学所需的复杂数学公式,以及各领域开发人员用于构建和执行多步骤工作流。

OpenAI o1-mini

o1系列在精确生成和调试复杂代码方面表现出色。为了向开发者提供更高效的解决方案,OpenAI还推出了低配的乞丐版OpenAI o1-mini,这是一款更快速、更便宜的推理模型,特别适用于编程。作为一个较小的模型,o1-mini比o1-preview 便宜80%。该模型是纯纯的理科生,重逻辑推理能力,但是其他世界知识较为薄弱。关于OpenAI o1-mini更多详情可以参见本次推文的第3篇小作文:《全面解说OpenAI o1三部曲:下篇-乞丐版o1-mini》。

如何使用OpenAI o1

o1模型面向ChatGPT Plus和团队用户开放。o1-preview和o1-mini都可以在模型选择器中手动选择,启动时,o1-preview每周消息限制为30条,o1-mini每周限制为50条。ChatGPT企业版和教育版用户将在下周开始访问这两种模型。

至于API调用,符合条件的API使用者可在API中使用这两种模型进行原型开发,当前速率限制为每分钟20次请求。当前这些模型的API不包括函数调用、流处理、支持系统消息和其他功能。要开始使用,请查看API文档:http://platform.openai.com/docs/guides/reasoning 。

OpenAI 还计划向所有ChatGPT免费用户提供o1-mini的访问权限。所以,白嫖用户也依然可以白嫖低配版。

参考资料: 

https://openai.com/index/introducing-openai-o1-preview/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值