OpenAI发布构建智能体的新工具
一、发布背景与目标
日期 :2025年3月11日目标 :OpenAI致力于帮助开发者和企业构建有用且可靠的智能体(agents)。智能体被视为能够独立为用户完成任务的系统。过去一年中,OpenAI引入了新的模型能力,如高级推理、多模态交互和新的安全技术,为构建智能体奠定了基础。然而,客户反馈将这些能力转化为生产就绪的智能体存在挑战,通常需要大量的提示迭代和自定义编排逻辑,且缺乏足够的可见性或内置支持。
二、新工具与API介绍
(一)Responses API
概述 :这是OpenAI推出的新API原语,用于利用其内置工具构建智能体。它结合了Chat Completions API的简洁性和Assistants API的工具使用能力。随着模型能力的不断发展,Responses API被认为将为构建智能体应用的开发者提供更灵活的基础。通过单一的Responses API调用,开发者能够使用多种工具和模型轮次解决日益复杂的任务。内置工具支持 :最初,Responses API将支持新的内置工具,如网络搜索(web search)、文件搜索(file search)和计算机使用(computer use)。这些工具旨在协同工作,将模型与现实世界连接起来,使它们在完成任务时更有用。此外,它还带来了一些可用性改进,包括统一的基于项目的界面设计、更简单的多态性、直观的流式事件以及SDK助手(如response.output_text
)来轻松访问模型的文本输出。适用场景 :该API适用于希望轻松将OpenAI模型和内置工具集成到其应用程序中的开发者,无需处理多个API或外部供应商的复杂性。它还简化了在OpenAI上存储数据的过程,以便开发者可以使用诸如跟踪和评估等功能来评估智能体性能。需要提醒的是,OpenAI默认情况下不会使用商业数据来训练模型,即使数据存储在OpenAI上。定价与可用性 :该API从即日起向所有开发者开放,不会单独收费——标记和工具将按照OpenAI定价页面上规定的标准费率计费。开发者可以查看Responses API的快速入门指南以了解更多信息。
(二)对现有API的影响
Chat Completions API :Chat Completions仍然是OpenAI最广泛采用的API,OpenAI承诺将继续支持它,并为其提供新模型和功能。对于不需要内置工具的开发者,可以继续使用Chat Completions。然而,Responses API是Chat Completions的超集,具有相同的性能,因此对于新的集成,建议从Responses API开始。Assistants API :根据开发者对Assistants API测试版的反馈,OpenAI已将关键改进纳入Responses API,使其更灵活、更快、更易于使用。OpenAI正在努力实现Assistants API和Responses API之间的完全功能对等,包括对类似Assistant和Thread对象以及代码解释器工具的支持。一旦完成,OpenAI计划在2026年中期宣布正式弃用Assistants API,并提供一个清晰的从Assistants API迁移到Responses API的指南,以便开发者保留所有数据并迁移其应用程序。在正式宣布弃用之前,OpenAI将继续向Assistants API提供新模型。Responses API代表了在OpenAI上构建智能体的未来方向。
(三)Responses API中的内置工具
1. 网络搜索(Web search)
功能 :开发者现在可以使用网络搜索获取快速、最新且具有清晰相关引用的答案。在Responses API中,当使用gpt-4o和gpt-4o-mini时,网络搜索作为工具可用,并且可以与其他工具或函数调用配对。代码示例 :
const response = await openai. responses. create ( {
model : "gpt-4o" ,
tools : [ { type : "web_search_preview" } ] ,
input : "What was a positive news story that happened today?"
} ) ;
console. log ( response. output_text) ;
应用场景 :在早期测试中,开发者将网络搜索用于多种用例,包括购物助手、研究智能体和旅行预订智能体——任何需要及时从网络获取信息的应用程序。例如,Hebbia利用网络搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所快速从广泛的公共和私人数据集中提取可操作的见解。通过将实时搜索能力集成到其研究工作流程中,Hebbia提供了更丰富、更具上下文特定的市场情报,并不断提高其分析的精确性和相关性,超越了当前基准。性能与定价 :网络搜索在API中由ChatGPT搜索使用的相同模型提供支持。在SimpleQA基准测试中,该测试评估LLM回答简短事实问题的准确性,GPT‑4o搜索预览和GPT‑4o mini搜索预览分别得分90%和88%。网络搜索生成的响应包括指向来源的链接,例如新闻文章和博客文章,为用户提供了一种了解更多信息的方式,而内容所有者则获得了接触更广泛受众的新机会。任何网站或出版商都可以选择在API的网络搜索中出现。该工具以预览形式向所有开发者提供。OpenAI还通过Chat Completions API中的gpt-4o-search-preview
和gpt-4o-mini-search-preview
直接向开发者提供经过微调的搜索模型。GPT‑4o搜索和4o-mini搜索的定价分别为每千次查询30美元和25美元。开发者可以在Playground中查看网络搜索,并在文档中了解更多信息。
2. 文件搜索(File search)
功能 :开发者现在可以轻松使用改进的文件搜索工具从大量文档中检索相关信息。该工具支持多种文件类型、查询优化、元数据过滤和自定义重新排名,能够提供快速、准确的搜索结果。同样,通过Responses API,只需几行代码即可集成。代码示例 :
const productDocs = await openai. vectorStores. create ( {
name : "Product Documentation" ,
file_ids : [ file1. id, file2. id, file3. id] ,
} ) ;
const response = await openai. responses. create ( {
model : "gpt-4o-mini" ,
tools : [ {
type : "file_search" ,
vector_store_ids : [ productDocs. id] ,
} ] ,
input : "What is deep research by OpenAI?"
} ) ;
console. log ( response. output_text) ;
应用场景 :文件搜索工具可用于多种现实世界的用例,包括使客户支持代理能够轻松访问常见问题解答,帮助法律助理快速参考过往案例以供专业人士使用,以及协助编码代理查询技术文档。例如,Navan在其AI驱动的旅行代理中使用文件搜索,能够快速为用户提供来自知识库文章(如公司旅行政策)的精确答案。凭借内置的查询优化和重新排名,Navan无需额外调整或配置即可设置强大的检索增强生成(RAG)管道。通过为每个用户组设置专用向量存储,Navan能够根据个人账户设置和用户角色定制答案,为用户及其员工节省时间,同时提供准确、个性化的支持。性能与定价 :该工具在Responses API中向所有开发者提供。使用费用为每千次查询2.50美元,文件存储费用为每天每GB 0.10美元,首GB免费。该工具继续在Assistants API中提供。此外,OpenAI还在向量存储API对象中添加了一个新的搜索端点,以便直接查询您的数据以供其他应用程序和API使用。开发者可以在文档中了解更多信息,并在Playground中开始测试。
3. 计算机使用(Computer use)
功能 :为了构建能够在计算机上完成任务的智能体,开发者现在可以使用Responses API中的计算机使用工具,该工具由支持Operator的相同计算机使用智能体(CUA)模型提供支持。这一研究预览模型在OSWorld(用于完整计算机使用任务)上取得了38.1%的成功率,在WebArena上取得了58.1%的成功率,在WebVoyager(用于基于网络的交互)上取得了87%的成功率,均创下了新的最高记录。代码示例 :
const response = await openai. responses. create ( {
model : "computer-use-preview" ,
tools : [ {
type : "computer_use_preview" ,
display_width : 1024 ,
display_height : 768 ,
environment : "browser" ,
} ] ,
truncation : "auto" ,
input : "I'm looking for a new camera. Help me find the best one."
} ) ;
console. log ( response. output) ;
应用场景 :开发者可以使用计算机使用工具来自动化基于浏览器的工作流程,例如对Web应用程序进行质量保证或在遗留系统中执行数据输入任务。例如,Unify是一个用于增长收入的行动系统,它使用智能体来识别意图、研究账户并与买家互动。借助OpenAI的计算机使用工具,Unify的智能体可以访问以前通过API无法获取的信息——例如,使物业管理公司能够通过在线地图验证企业是否扩大了其房地产足迹。这种研究作为自定义信号,触发