再看OpenAI发布的两款重要的新预览模型：o1-preview和o1-mini

最新推荐文章于 2024-10-13 10:28:46 发布

新加坡内哥谈技术

最新推荐文章于 2024-10-13 10:28:46 发布

阅读量650

点赞数 17

文章标签：人工智能语言模型自然语言处理 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79342058/article/details/142236488

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

OpenAI今天发布了两款新的预览模型：o1-preview和o1-mini（尽管名字有“mini”，它也是预览版），此前传闻代号为“strawberry”。这些模型不仅仅是GPT-4o的升级版，它们在成本和性能上做出了重大权衡，以提升“推理”能力。

专为链式思维训练

OpenAI的官方说明总结得很好：“我们开发了一系列新的AI模型，这些模型在回答前会花更多时间思考。”这种思维方式类似于“链式思维”（chain of thought）的模式——即逐步思考的技巧，社区从2022年5月的论文《大型语言模型是零样本推理者》中开始探索。

OpenAI在《学习使用LLM推理》文章中解释了这些新模型的训练方式：

强化学习：通过大规模强化学习算法，模型在数据效率极高的训练过程中学会如何高效思考。随着训练时间和推理时间的增加，o1的性能显著提高。这个过程帮助模型逐步改善其推理能力。
改进问题处理：模型不仅可以识别并修正自己的错误，还可以将复杂步骤拆解为更简单的步骤。当现有方法不起作用时，模型会尝试不同的策略。这极大提升了模型应对复杂问题的能力。

这意味着新模型在处理复杂提示时表现更好，尤其是当任务需要反复思考和调整策略时。

API文档中的细节

从API文档中可以发现一些有趣的细节和权衡：

适合需要深度推理的应用，但如果需要快速响应、调用功能或图像输入，GPT-4o和GPT-4o mini仍然是更好的选择。
无系统提示支持：模型使用现有的对话API，只能发送用户和助手消息。
无流式支持、工具使用或图像输入，并且请求可能会根据推理的复杂程度，耗时从几秒到几分钟不等。
推理令牌的引入：这些令牌在API响应中不可见，但会计入输出令牌并收费。这些令牌是模型进行“思考”的地方。

此外，文档建议在使用检索增强生成（RAG）时，尽量减少额外的上下文信息，以防止模型过度复杂化响应。

隐藏的推理令牌

推理令牌在API中不可见，尽管用户为其付费。OpenAI解释称，隐藏这些令牌有助于模型遵循安全规则，并且防止竞争对手复制他们在推理方面的研究成果。

实例

在链式思维部分，OpenAI提供了一些实例，例如生成Bash脚本、解决填字游戏以及计算复杂化学溶液的pH值。这些例子展示了模型如何在ChatGPT界面中展示推理步骤，但并不包括原始推理令牌，而是使用了更加易懂的方式进行概括。

目前，社区还在寻找GPT-4o无法解决但o1-preview表现优异的提示示例。不过，当找到合适的提示时，o1的表现让人感到非常惊艳。

未来展望

这些新模型的最佳应用场景仍需时间探索。预计大部分应用仍将使用GPT-4o，但新模型让我们看到了LLM在解决复杂任务方面的新可能性。未来，其他AI实验室也可能开发类似的模型，专门用于链式思维推理。

新加坡内哥谈技术

关注

17
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。