再看OpenAI发布的两款重要的新预览模型:o1-preview和o1-mini

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

OpenAI今天发布了两款新的预览模型:o1-preview和o1-mini(尽管名字有“mini”,它也是预览版),此前传闻代号为“strawberry”。这些模型不仅仅是GPT-4o的升级版,它们在成本和性能上做出了重大权衡,以提升“推理”能力。

专为链式思维训练

OpenAI的官方说明总结得很好:“我们开发了一系列新的AI模型,这些模型在回答前会花更多时间思考。”这种思维方式类似于“链式思维”(chain of thought)的模式——即逐步思考的技巧,社区从2022年5月的论文《大型语言模型是零样本推理者》中开始探索。

OpenAI在《学习使用LLM推理》文章中解释了这些新模型的训练方式:

  • 强化学习:通过大规模强化学习算法,模型在数据效率极高的训练过程中学会如何高效思考。随着训练时间和推理时间的增加,o1的性能显著提高。这个过程帮助模型逐步改善其推理能力。
  • 改进问题处理:模型不仅可以识别并修正自己的错误,还可以将复杂步骤拆解为更简单的步骤。当现有方法不起作用时,模型会尝试不同的策略。这极大提升了模型应对复杂问题的能力。

这意味着新模型在处理复杂提示时表现更好,尤其是当任务需要反复思考和调整策略时。

API文档中的细节

从API文档中可以发现一些有趣的细节和权衡:

  • 适合需要深度推理的应用,但如果需要快速响应、调用功能或图像输入,GPT-4o和GPT-4o mini仍然是更好的选择。
  • 无系统提示支持:模型使用现有的对话API,只能发送用户和助手消息。
  • 无流式支持、工具使用或图像输入,并且请求可能会根据推理的复杂程度,耗时从几秒到几分钟不等。
  • 推理令牌的引入:这些令牌在API响应中不可见,但会计入输出令牌并收费。这些令牌是模型进行“思考”的地方。

此外,文档建议在使用检索增强生成(RAG)时,尽量减少额外的上下文信息,以防止模型过度复杂化响应。

隐藏的推理令牌

推理令牌在API中不可见,尽管用户为其付费。OpenAI解释称,隐藏这些令牌有助于模型遵循安全规则,并且防止竞争对手复制他们在推理方面的研究成果。

实例

在链式思维部分,OpenAI提供了一些实例,例如生成Bash脚本、解决填字游戏以及计算复杂化学溶液的pH值。这些例子展示了模型如何在ChatGPT界面中展示推理步骤,但并不包括原始推理令牌,而是使用了更加易懂的方式进行概括。

目前,社区还在寻找GPT-4o无法解决但o1-preview表现优异的提示示例。不过,当找到合适的提示时,o1的表现让人感到非常惊艳。

未来展望

这些新模型的最佳应用场景仍需时间探索。预计大部分应用仍将使用GPT-4o,但新模型让我们看到了LLM在解决复杂任务方面的新可能性。未来,其他AI实验室也可能开发类似的模型,专门用于链式思维推理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值