人工智能推理能力的新高度？OpenAI发布新模型o1

你别管我了

于 2024-09-14 11:45:00 发布

阅读量503

点赞数 6

文章标签：人工智能语言模型学习深度学习自然语言处理

本文链接：https://blog.csdn.net/2201_75571291/article/details/142213898

版权

人工智能推理能力的新高度？

OpenAI发布新模型o1

  2024年9月3日，OpenAI日本分公司CEO长崎忠雄在KDDI（日本大型电信公司）峰会上报告提出OpenAI下一代大模型GPT-Next的发布设想，并称相较已发布的GPT-4有显著技术优化。然而，此次“发布”充满了信息模糊，不仅并未透露出明确的发布规划和发布时间，甚至连其模型代号“Next”都尚未被确定是否为其真实名字，相关细节引发了外界诸多猜想。

  GPT-next的热度方兴未艾，9月10日，新闻网站The Information又放出OpenAI即将在两周内发布新模型Strawberry纯文本版的消息，为OpenAI新模型的发布又蒙上了一层不确定性。

北京时间2024年9月13日凌晨1点，OpenAI在其官方Twitter账号发布系列消息，重磅推出其新模型OpenAI o1-preview和OpenAI o1-mini。

OpenAI o1模型强化的技术特征

**逻辑和推理能力大幅提高。**根据OpenAI的测试，OpenAI o1在诸多测试集上取得了大幅进步。在AIME 2024数学竞赛的测试得分上，o1模型达到了83.3%，o1-preview版达到了56.7%，远超gpt-4o的13.4%；在代码竞赛中，GPT-4o准确率为11.0%，o1-preview为62%，o1模型则达到了89%；在博士级科学问题(GPQA Diamond)，GPT-4o是56.1%，人类专家水平是69.7%，o1模型则达到了78%。在其他测试数据集上，OpenAI o1也表现出了大幅进步。

OpenAI宣称，o1模型在物理、生物和化学问题的基准上超过了人类博士水平的准确性。可见此次更新在逻辑推理和复杂编程任务能力上的大幅飞跃。

**安全保护规则的强化。**O1模型也一并加强了安全保护方面的能力。具体而言，OpenAI提出了一种新的安全培训方法，该方法利用模型的推理能力使其遵守安全和对齐准则。在测试新模型在防止用户“越狱”行为中的表现后，o1-preview 模型得分为84，远超GPT-4o在这方面的表现（得分为22）。

o1模型弱化的模型能力

尽管o1模型在推理能力方面取得显著进步，但在保证强大推理能力的同时，相较于前序模型，o1模型在一些模型能力维度上也采取了一定的让步与弱化。

**一是牺牲运行时效而让步准确性。**为了给模型足够的运行推理时间，o1模型的响应速度要比gpt-4o慢得多。根据9月10日OpenAI测试人员的说法，新模型将采用CoT的提示工程方法，此种方法运用思维链提升大模型的表现性能，追求每个推理步骤的完善，因此必然会极大地影响推理时间。

**二是仅支持纯文本对话，暂不支持多模态。**当前公布的preview和mini版本均不支持图像、视频等多模型文件的上传，仅支持纯文本的提示词上传，这符合9月10日内部测试人员的消息，之后的多模态版本或许会在更新之后完成上线。

**三是开放给用户的运行次数与速率均存在限制。**当前o1-preview的每周速率限制为30条消息，o1-mini的每周速率限制为50条消息，开放给用户的使用次数并不算多。在调用API时，速率限制为20RPM。未来运行次数和速率的提升还需期待OpenAI的后续更新。

小结

2024年7月，有外媒援引知情人士以及未公开的内部财务数据分析称，OpenAI本年度或面临高达50亿美元的巨额亏损。预估数据显示，OpenAI2024年运营总成本可能达到85亿美元。其中，在微软租用服务器维持运营的费用为40亿美元，训练成本（包括数据费用）为30亿美元。在巨额的运营成本考量下，OpenAI公司新模型的训练与推出或许也不得不平衡成本与性能两方面因素。

从大模型逐渐走热之初，北师大团队即观察提出，大资本支持的算力是否会成为互联网竞争的基础，能否获得资本支持可能成为未来企业参与大模型研发与互联网竞争的基础。本次OpenAI的o1模型推出，在一定程度上也折射出算力基础、资本支持对大模型训练与应用的基础作用。

对于OpenAI来说，本次发布的o1模型后续是否会扩展信息模态维度、能否降低使用成本？新的o1模型将会在哪些领域率先落地应用？对于大模型培育与应用的市场来说，大模型在人类能力上还会有哪些突破？面对成本限制，大模型发展的下一轮将怎么突破？这些问题有待持续关注。