OpenAI 发布企业运用 AI 大模型的 7大场景

众所周知,OpenAI 提供两种类型的模型:推理模型(例如 o1 和 o3-mini)和GPT 模型(如 GPT-4o)

那开发者面对这两种类型的模型该如何选择呢?

前段时间,OpenAI解读了o系列推理模型与效率型GPT系列模型的不同,从而进一步帮助开发者和企业能更好地选择适合自己的模型。

此外。OpenAI还分享了o系列7大实际应用场景,在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。

下面是全文解读:

推理模型与GPT模型的不同

与GPT模型相比,OpenAI的o系列模型在不同任务上表现出色,并需要不同的提示方式。

这两个模型系列并非孰优孰劣——它们只是各有所长。

OpenAI训练了o系列模型("规划者")来对复杂任务进行更长时间、更深入的思考,使它们能够有效地制定策略、规划复杂问题的解决方案,并基于大量模糊信息做出决策。

这些模型还能以高准确度和精确度执行任务,使它们在数学、科学、工程、金融服务和法律服务等通常需要人类专家的领域中表现理想。

另一方面,OpenAI的低延迟、更具成本效益的GPT模型("工作马")专为直接执行而设计。应用程序可能会使用o系列模型来规划解决问题的策略,而使用GPT模型来执行特定任务,特别是当速度和成本比完美准确性更重要时。

如何选择适合自己的模型?

你在使用过程中最关注的是什么?

  • 速度和成本 → GPT模型更快且通常成本更低

  • 执行明确定义的任务 → GPT模型能很好地处理明确定义的任务

  • 准确性和可靠性 → o系列模型是可靠的决策者

  • 复杂问题解决 → o系列模型能处理模糊和复杂问题

如果在完成任务时速度和成本是最重要的因素,且你的案例是由简单明确的任务组成,那么GPT模型是最适合的选择。

然而,如果准确性和可靠性是最重要的因素,且有非常复杂的多步骤问题需要解决,那么o系列模型可能更适合。

大多数AI工作流程会同时使用这两类模型——o系列用于智能规划和决策,GPT系列用于任务执行。

图片

 GPT-4o 和 GPT-4o 迷你模型将订单详细信息与客户信息进行分类,识别订单问题和退货政策,然后将所有这些数据点馈送到 o3-mini,以根据政策对退货的可行性做出最终决定。

何时使用推理模型

下面是OpenAI从客户和内部观察到的一些成功使用模式。这并不是对所有可能用例的全面回顾,而是测试 o 系列模型的一些实用指南。

1. 处理模糊任务

推理模型特别擅长处理有限信息或分散信息,通过简单的提示理解用户意图并处理指令中的任何空白。

实际上,推理模型通常会在做出无根据的猜测或尝试填补信息空白之前提出澄清问题。

“o1 的推理能力使我们的多智能体平台 Matrix 在处理复杂文档时能够生成详尽、格式良好且详细的响应。例如,o1 使 Matrix 能够通过基本提示轻松识别信用协议中受限支付能力下可用的篮子。以前的任何模型都无法达到如此高的性能。与其他模型相比,o1 在密集信用协议中 52% 的复杂提示上取得了更好的结果。”

2. 大海捞针

当你传递大量非结构化信息时,推理模型擅长理解并提取最相关的信息来回答问题。

“为了分析一家公司的收购,o1 审查了数十份公司文件(如合同和租约),以找出可能影响交易的任何棘手条件。该模型的任务是标记关键条款,并在这样做的过程中,在脚注中确定了一项至关重要的“控制权变更”条款:如果公司被出售,它将必须立即偿还 7500 万美元的贷款。o1 对细节的极度关注使我们的 AI 代理能够通过识别关键任务信息来支持财务专业人士。”

— Endex,AI金融智能平台

3. 在大型数据集中发现关系和细微差别

OpenAI发现推理模型特别擅长推理复杂文档,这些文档有数百页密集的非结构化信息——如法律合同、财务报表和保险索赔。

这些模型特别擅长在文档之间找出相似之处,并基于数据中未明确表达的事实做出决策。

"税务研究需要综合多个文档以产生最终连贯的答案。我们将GPT-4o替换为o1,发现o1在推理文档之间的相互作用以得出任何单一文档中都不明显的逻辑结论方面表现更好。因此,通过切换到o1,我们看到端到端性能提高了4倍——令人难以置信。"

—Blue J,AI税务研究平台

推理模型还擅长推理微妙的政策和规则,并将其应用于手头任务以得出合理的结论。

"在金融分析中,分析师经常处理围绕股东权益的复杂情景,并需要理解相关的法律复杂性。我们用一个具有挑战性但常见的问题测试了来自不同提供商的约10个模型:融资如何影响现有股东,特别是当他们行使反稀释特权时?这需要推理融资前和融资后的估值,并处理循环稀释循环——顶级金融分析师需要花费20-30分钟才能解决的问题。我们发现o1和o3-mini可以完美地做到这一点!这些模型甚至生成了一个清晰的计算表,显示对10万美元股东的影响。"

–BlueFlame AI,投资管理AI平台

4. 多步骤智能规划

推理模型对智能规划和策略开发至关重要。

当推理模型用作"规划者"时,OpenAI看到了成功的案例,它会为问题制定详细的多步骤解决方案,然后根据是高智能还是低延迟更重要来选择和分配合适的GPT模型("执行者")进行每个步骤。

"我们在我们的代理基础设施中使用o1作为规划者,让它协调工作流中的其他模型来完成多步骤任务。我们发现o1非常擅长选择数据类型并将大问题分解成更小的块,使其他模型能够专注于执行。"

—Argon AI,制药行业AI知识平台

"o1为我们的工作AI助手Lindy提供了许多智能工作流程。该模型使用函数调用从您的日历或电子邮件中提取信息,然后可以自动帮助您安排会议、发送电子邮件和管理日常任务的其他部分。我们将所有曾经导致问题的智能步骤都切换到o1,并观察到我们的代理几乎在一夜之间变得完美无缺!"

   —Lindy.AI,工作AI助手

5. 视觉推理

截至今日,o1是唯一支持视觉能力的推理模型。它与GPT-4o的区别在于,o1能够理解最具挑战性的视觉内容,如结构模糊的图表和表格,或图像质量较差的照片。

"我们为网上数百万产品自动进行风险和合规审查,包括奢侈珠宝仿制品、濒危物种和管制物质。GPT-4o在我们最难的图像分类任务上达到了50%的准确率。o1在不对我们的流程进行任何修改的情况下达到了令人印象深刻的88%准确率。"

—SafetyKit,AI驱动的风险和合规平台

从OpenAI自己的内部测试中,可以看到看到o1能够从高度详细的建筑图纸中识别装置和材料,以生成全面的材料清单。

OpenAI研究院观察到的最令人惊讶的事情之一是,o1可以通过在建筑图纸的一页上查看图例,并在没有明确指示的情况下正确地将其应用到另一页上,从而在不同图像之间找出相似之处。

下面您可以看到,对于 4x4 PT 木柱,o1 根据图例识别出“PT”代表压力处理。

图片

6. 审查、调试和改进代码质量

推理模型能有效地审查和改进大量代码,通常在后台运行代码审查,考虑到模型的较高延迟。

"我们在GitHub和GitLab等平台上提供自动AI代码审查。虽然代码审查过程本身对延迟不敏感,但确实需要理解跨多个文件的代码差异。这正是o1真正闪光的地方——它能够可靠地检测到人类审查者可能忽略的代码库的微小变化。在切换到o系列模型后,我们能够将产品转化率提高3倍。"

—CodeRabbit,AI代码审查初创公司

虽然GPT-4o和GPT-4o mini可能因其较低的延迟而更适合编写代码,但也看到o3-mini在延迟要求稍低的代码生成用例中表现出色。

"o3-mini始终如一地生成高质量、结论性的代码,当问题定义明确时,即使对于非常具有挑战性的编码任务,也经常能得出正确的解决方案。虽然其他模型可能只适用于小规模、快速的代码迭代,但o3-mini在规划和执行复杂的软件设计系统方面表现出色。"

—Windsurf,由Codeium构建的协作智能AI驱动IDE

7. 评估和基准测试其他模型响应

OpenAI还发现推理模型在基准测试和评估其他模型响应方面表现良好。数据验证对确保数据集质量和可靠性非常重要,特别是在医疗保健等敏感领域。

传统的验证方法使用预定义的规则和模式,但像o1和o3-mini这样的高级模型可以理解上下文并推理数据,为验证提供更灵活、更智能的方法。

求稍低的代码生成用例中表现出色。

"许多客户在Braintrust的评估过程中使用LLM作为评判者。例如,一家医疗保健公司可能使用像gpt-4o这样的工作马模型总结患者问题,然后用o1评估摘要质量。一位Braintrust客户看到评判者的F1分数从4o的0.12提高到o1的0.74!在这些用例中,他们发现o1的推理在发现完成之间的细微差别方面是一个改变游戏规则的因素,特别是对于最困难和最复杂的评分任务。"

—Braintrust,AI评估平台

如何有效地提示推理模型

这些模型在简单直接的提示下表现最佳。一些提示工程技术,如指示模型"逐步思考",可能不会增强性能(有时甚至会阻碍它)。

以下是一些提示技巧的最佳实践

开发者消息(developer messages)替代系统消息(system messages):从o1-2024-12-17开始,推理模型支持开发者消息而非系统消息,以符合模型规范中描述的命令链行为。

保持提示简单直接:这些模型擅长理解和响应简短、清晰的指令。

避免思维链提示:由于这些模型内部执行推理,提示它们"逐步思考"或"解释你的推理"是不必要的。

使用分隔符增加清晰度:使用markdown、XML标签和章节标题等分隔符清晰地指示输入的不同部分,帮助模型适当地解释不同部分。

先尝试零样本,需要时再使用少样本:推理模型通常不需要少样本示例就能产生良好的结果,所以尝试编写不带示例的提示。如果您对所需输出有更复杂的要求,在提示中包含几个输入和所需输出的示例可能会有所帮助。只需确保示例与提示指令非常一致,因为两者之间的差异可能会产生不良结果。

提供具体指导:如果有您明确希望限制模型响应的方式(如"提出预算低于500美元的解决方案"),请在提示中明确概述这些约束。

明确说明您的最终目标:在您的指示中,尝试为成功的响应提供非常具体的参数,并鼓励模型继续推理和迭代,

Markdown 格式:从 o1-2024-12-17 版本开始,推理模型的 API 默认不会输出带 Markdown 格式的内容。若你希望模型在回复中使用 Markdown,可在开发者消息(developer message)的第一行包含字符串 Formatting re-enabled,这样模型就知道你需要它以 Markdown 格式输出。

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值