每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
OpenAI 正在推出一套全新的 API 和工具,帮助开发者和企业更高效地构建 AI 代理。这些技术正是支撑其自家 AI 代理 Deep Research 和 Operator 的核心——前者能够自主搜索互联网,生成结构清晰、引文完整的研究报告,而后者则能根据用户文本指令自主操作浏览器,比如查找体育赛事门票或预订餐厅。
现在,开发者终于能直接使用这些强大 AI 代理的底层技术,打造自己的竞品,或是针对特定领域和受众定制更加专业的 AI 代理。
OpenAI 的 AI 代理进化史:从 Deep Research 到 Responses API
OpenAI 近期在推理、多模态处理和安全机制上的突破,为 AI 代理的发展奠定了基础,尤其是其“o”系列推理模型(o1 和 o3)。
“推理模型对 AI 代理的能力至关重要,”OpenAI 平台产品负责人 Olivier Godement 说道。“过去,AI 代理最大的问题是无法处理复杂的长期任务,比如规划。”
然而,尽管 AI 代理的潜力巨大,开发者一直缺乏易于部署到生产环境的工具,直到现在。
让 AI 代理真正“懂事”:Responses API 和开源 Agents SDK
为了解决这些问题,OpenAI 推出了几款全新产品:Responses API、内置的网页搜索和文件搜索工具、计算机使用工具,以及开源的 Agents SDK。
- Responses API:让开发者可以在 OpenAI 技术之上构建 AI 代理。
- Agents SDK:帮助开发者将 AI 代理与其他 Web 工具和流程连接,实现“自动化工作流”。
这些工具的核心目标是减少开发者在提示工程(Prompt Engineering)和复杂编排逻辑上的工作量,让 AI 代理的开发变得更加高效和低成本。
面对来自 Manus、阿里巴巴 Qwen、DeepSeek 以及 Anthropic 和 Google 等对手的竞争,OpenAI 希望借助这些工具,继续巩固其在 AI 生态系统中的“一站式”领先地位。
OpenAI 罕见“开源”:Agents SDK 可适配非 OpenAI 模型
OpenAI 这次的开放程度让 AI 圈炸锅了——新发布的 Agents SDK 竟然是 开源 的!这意味着开发者不仅能用它来管理和优化 OpenAI 代理,还能让 AI 代理运行在 竞争对手的模型上,比如 Anthropic、Google,甚至开源的 DeepSeek、Qwen、Mistral 和 Meta 的 Llama 系列。
“我们不希望强迫开发者只能使用 OpenAI 模型,”Godement 表示。“Agents SDK 是开源的,企业可以自由组合不同模型。”
Agents SDK 提供的核心功能包括:
- 可配置代理:为 AI 代理预设指令和工具权限。
- 智能任务交接:根据上下文在不同 AI 代理间分配任务。
- 内置安全防护:确保输入验证和内容合规。
- 跟踪与可视化:开发者可以清晰监控代理的操作过程。
“开发者可以看到代理的具体行为——它调用了哪些工具、收集了什么数据,以及它在做决策时的过程。”OpenAI API 产品经理 Nikunj Handa 说道。
Responses API:让 AI 代理更智能、更透明
此次更新的核心——Responses API,将 Chat Completions API 与 Assistants API 的工具调用功能整合在一起(后者将在 2026 年中旬停用)。
Responses API 让开发者可以在单个 API 请求中调用多个内置工具,简化了复杂的多步骤交互。
支持的内置工具包括:
- 网页搜索:实时获取带引用的搜索结果。
- 文件搜索:从海量文档中提取关键信息,支持元数据筛选和查询优化。
- 计算机使用工具:让 AI 代理像人一样操作计算机,比如填表、浏览网页、使用软件。
“Responses API 让开发者能更透明地看到 AI 代理的决策过程——它调用了哪些工具、为何调用、调用前后的逻辑是什么。”Handa 介绍道。
网页搜索:实时获取可验证的信息
Responses API 内置的网页搜索工具,可以让 AI 代理实时查询最新信息,适用于研究助手、购物指南、新闻聚合等应用。
这个搜索工具与 ChatGPT 的搜索功能相同,并且所有 API 结果都会附带来源链接,用户可以直接点击查看原始信息,确保内容可信。
“网页搜索是我们首批推出的内置工具之一,它能让模型访问实时信息。”Handa 说道。
文件搜索:从私有云快速提取关键信息
文件搜索工具支持多种文件格式,具备查询优化、元数据筛选和自定义排名等功能,帮助 AI 代理更精准地检索企业内部文档。
“这个工具让开发者可以将所有数据存入 OpenAI 系统,并用 AI 代理高效提取所需信息。”Handa 介绍。
定价方面,文件搜索每千次查询 $2.50,存储费用为 $0.10/GB/天(首 1GB 免费)。
计算机使用工具:让 AI 代理“动手”
这个工具由 OpenAI 的计算机使用代理(CUA)模型提供支持,它能将 AI 指令转化为可执行的操作,比如数据录入、软件操作、网页浏览等。
目前该工具作为研究预览版,仅向特定开发者(使用等级 3-5)开放。定价为 每百万输入 token $3,每百万输出 token $12。
对企业的意义
对于 IT 主管、CTO 及管理层来说,OpenAI 新工具意味着:
- 无需额外开发,即可将 AI 自动化能力集成到现有系统。
- 网页搜索和文件搜索,助力 AI 代理更快获取关键信息。
- 计算机使用工具,让 AI 代理能直接操作无法 API 访问的软件。
- 开源 Agents SDK,让企业可以自由选择 AI 代理运行的模型。
未来展望:OpenAI 要让 AI 代理全面普及
OpenAI 计划在未来几个月内推出更多工具和集成,进一步降低 AI 代理的部署和规模化难度。
“我们认为,接下来的几个月将是 AI 代理大规模落地的关键阶段。”Godement 说道。“虽然 OpenAI 率先推出了 Deep Research 等 AI 代理,但我们不会做所有代理——这正是我们推出开发者平台的原因。”
OpenAI 还将继续优化 AI 代理的安全性,包括防御提示注入和未经授权的数据访问等问题。
开发者现在即可访问 OpenAI 官方文档和 API Playground,体验最新工具。