【视频转写】Open AI直播发布会，发布首个AI Agent Operator

视频来源

https://www.bilibili.com/video/BV1tYf7YnEvW?p=1

大纲

AI助手：Operator简介
- AI助手的定义
  - 能够独立执行任务的AI系统。
  - 被分配的任务自主执行。
- AI助手的影响
  - AI领域的重要趋势。
  - 对工作、生产力、创造力和成就产生深远影响。
- Operator的推出
  - 首次引入的AI助手。
  - 利用基于云的网页浏览器。
  - 首先在美国面向专业用户推出。
  - 未来几个月内将推广到其他国家及高级用户。
  - 早期研究预览，计划进行改进。
Operator演示
- Operator主页
  - 界面类似ChatGPT。
  - 用户输入提示，Operator执行任务。
  - 预填提示作为任务示例。
- 与品牌的合作
  - 与OpenTable、Allrecipes、Ticketmaster、Uber、Thumbtack、DoorDash、eBay和Target合作。
  - 确保在这些平台上的无缝功能。
- 演示：使用OpenTable预订餐桌
  - 任务：为两人预订晚上7点的Beretta餐桌。
  - Operator实例化一个远程浏览器。
  - 自主导航和任务执行。
  - 为位置（旧金山）提供自定义指令。
  - 不可逆操作前的确认过程。
- 演示：使用Instacart购买杂货
  - 任务：购买鸡蛋、菠菜、蘑菇、鸡大腿和辣椒酱。
  - Operator使用GPT-4o的视觉能力识别物品。
  - 自主任务执行，需用户确认。
  - 用户可在任何时刻接管控制。
Operator背后的研究
- 计算机使用代理（CUA）
  - 基于GPT-4o构建的模型。
  - 训练以像人类一样使用和控制计算机。
  - 消除了对专用API的需求。
  - 直接与用户界面（键盘和鼠标）工作。
- 任务执行过程
  - AI助手观察截图并决定行动。
  - 内部独白和总结的思维链。
  - 行动、截图和子计划的持续循环。
  - 任务完成并将控制权返回给用户。
用户交互与控制
- 接管模式
  - 用户可以从Operator手中接管控制。
  - 用户控制期间会话保持私密。
  - 接管期间Operator无法看到用户操作。
- 确认过程
  - Operator在执行重要操作前寻求确认。
  - 确保用户与任务执行一致。
安全与缓解措施
- 错位场景
  - 用户错位：拒绝有害任务。
  - 助手错位：在执行有状态操作前进行确认。
  - 网站错位：防止欺诈网站。
- 提示注入监控
  - 作为防病毒工具检测可疑活动。
  - 检测到可疑活动时暂停进程。
性能基准
- OSworld评估
  - 衡量AI助手在常见操作系统上的导航能力。
  - CUA得分38.1%，高于其他已发布结果。
  - 人类性能为72.4%。
- WebArena评估
  - 衡量AI助手在常见网站上的导航能力。
  - CUA得分58.1%，高于其他已发布结果。
  - 人类性能仍更高。
未来计划与推广
- 逐步推广
  - 首先在美国面向专业用户推出。
  - 几周内提供API。
- 持续改进
  - 早期研究预览，持续进行增强。
  - 基于反馈的迭代，用于未来发布。
结论
- Operator的重要性
  - 委派任务以提高生产力。
  - 早期阶段，具有显著进步的潜力。
- 对未来的期待
  - 进入三级代理。
  - 期待用户合作和未来方向。

总结

一句话总结

Operator是一款能够使用网页浏览器自主执行任务的AI代理，由OpenAI作为早期研究预览推出，具有深刻影响生产力和创造力的潜力。

要点

Operator可以利用基于云的网页浏览器自主执行任务。
该系统最初将在美国面向专业用户推出，计划在未来几个月扩展到其他国家及普通用户。
Operator与OpenTable、Instacart和StubHub等平台无缝衔接，提升了用户与这些服务的互动体验。
Operator的性能正在不断提升，当前基准测试显示已有显著进步，但仍存在提升空间。
OpenAI旨在使Operator广泛可用，易于用户获取，逐步推广将从美国的专业用户开始。

深度问答

什么是Operator？
- Operator是一款能够使用网页浏览器自主执行任务的AI代理。
Operator如何工作？
- Operator使用基于云的网页浏览器浏览和与网站互动，根据用户指令执行任务。
Operator目前的局限性是什么？
- Operator仍处于研究预览阶段，可能会犯错。其性能虽令人印象深刻，但尚未达到人类水平。
OpenAI如何确保Operator的安全性？
- OpenAI已实施多种安全措施，包括拒绝有害任务、使用审核模型以及设置提示注入监控以检测可疑活动。
Operator的未来是什么？
- OpenAI计划继续提升Operator的性能和可访问性，逐步推广给更多用户，并推出面向开发者的API。

关键词标签

AI代理
Operator
自主任务
网页浏览器
OpenAI

目标受众

对美国有兴趣使用AI提升生产力和创造力的专业用户。
希望通过即将推出的API利用Operator能力构建应用的开发者。
对探索AI代理潜力感兴趣的科技爱好者和早期采用者。

术语解释

AI代理：能够独立执行任务的AI系统。
Operator：OpenAI的AI代理，可以使用网页浏览器自主执行任务。
CUA：计算机使用代理，一种训练有素、能像人类一样使用和控制计算机的模型。
AGI：通用人工智能，AI在理解、学习和应用知识方面与人类无法区分的假设能力。
API：应用程序编程接口，一套规则和协议，允许不同软件应用程序之间相互通信。

早上好。今天我们有令人兴奋的消息要和大家分享。我们即将推出我们的首款AI代理。AI代理是能够独立执行任务的AI系统。你只需分配任务，它们就能自主执行。我们相信这将成为AI领域的一个重要趋势，深刻影响人们的工作方式、生产力、创造力以及整体成就。

今天，我们介绍的是Operator，一个能够利用网络浏览器的系统，特别是基于云的网络浏览器。

此功能将于今天在美国面向专业用户推出，其他国家也将很快跟进。遗憾的是，欧洲地区将需要更长时间，并且在未来几个月内也将向高级用户开放。

这是一个早期研究预览。我们计划进行许多改进，以提高其质量，降低成本，并增加可访问性。我们的目标是使其广泛适用于用户。 此外，我们将在未来几周和几个月内推出更多代理。我们将在稍后讨论更多细节。现在，让我们进行演示。我将把话筒交给Yash。

很好。谢谢，Sam。大家好，我是Yash。这是Casey，那是Ray。我们是计算机使用代理团队的一部分，我们很高兴今天能展示Operator。正如Sam所提到的，Operator是一个早期研究预览。

它将执行许多令人印象深刻的任务，尽管偶尔会犯错，其中一些错误可能会相当尴尬。让我展示一下操作员能做什么。

这是操作员的主页，位于operator.ChatGPT.com，直播结束后即可访问。如您所见，界面与ChatGPT非常相似。您可以输入一个提示，操作员将尽力执行任务。

此外，您会注意到这里有一系列预填的提示。这些并非作为推荐，而是作为可执行任务的示例。

为了展示Operator的功能，我们与OpenTable、Allrecipes、Ticketmaster、Uber、Thumbtack、DoorDash、eBay和Target等众多品牌进行了合作。这确保了Operator在这些平台上能够无缝运行，我们相信用户会发现它在互动这些服务时极具价值。

现在，让我们深入到一个演示中。我将从一个使用OpenTable的简单示例开始。

今晚7点在贝雷塔预订一张两人的桌子。在这种情况下，我特意选择了OpenTable。我要求接线员使用OpenTable在旧金山的贝雷塔餐厅预订一张两人的桌子。那是一个很棒的地方，你应该去试试。虽然这里我使用了OpenTable，但直接说“贝雷塔”可能也会转到同一个平台。

搜索引擎也已经学会了如何进行预订。让我们来观察它的功能。你能解释一下这里发生了什么吗？

非常好。 我会稍微展开说明一下。当我输入查询后，操作员立即实例化了一个完全远程的浏览器。这个浏览器在云端运行，正如你所见，它已经可以操作了。我的手离开了键盘；我没有输入任何内容。AI正在自主导航，四处点击，没有任何手动输入。

它启动了这个浏览器会话。它知道OpenTable网站的位置，即opentable.com。正如你所见，这里也有一个总结性的思维链条。它访问了URL，搜索了Beretta，然后发生了一些有趣的事情：出于某种原因，OpenTable认为我们在弗吉尼亚，但它自动更正为旧金山。这是在使用ChatGPT。在Operator中，你也可以提供自定义指令。我将在这里快速演示一下。

00:03:33 - 00:03:48

我已经提供了一个自定义指令，指定对于相关查询，我居住在旧金山。操作员识别到了这一点，并自动调整为搜索Beretta。虽然晚上7点不可用，但晚上7点45分完全没问题，所以我们将按照这个时间进行预订。

在这种情况下，操作员返回，展示了任务委派的一个良好示例，即当操作员需要协助或需要提问时。它会返回并提供答案。在实际操作中，你无需监控此过程。你可以让它后台运行，同时处理其他任务。例如，如果晚上7点的预订不可用，它会通知你。从网页应用开始，你会收到通知，当操作员切换到移动端时，你会收到类似一般应用交互的移动通知。

这种交互非常直接，类似于与助手合作。例如，操作员可能会告诉你晚上7点的预订不可用，并建议改为7点45分。这也突显了我们稍后将讨论的确认过程。在进行不可逆操作（如预订）之前，操作员会寻求确认。在这种情况下，我会回答：“就这么办。”

好的，非常快——大约50秒。正如Sam提到的，我们启动了流程并观察了结果。不幸的是，那张桌子已经不可用了，所以它可能会寻找其他时间段。这实际上非常令人印象深刻。

那以前从未发生过。我们15点开始吧。在处理过程中，我们尝试一些更复杂的事情怎么样？我喜欢烹饪，并且一直在用Operator来购买所有杂货。这是我的购物清单：鸡蛋、菠菜、蘑菇、鸡腿肉和辣椒脆。

所以，这是你正在上传的图片。完全正确。我将使用Instacart，这是我们通常使用的。你能帮我把这个买了吗？我还会指定我偏好的商店。让我们看看它是否能找出我遗漏的东西。

在这种情况下，操作员迅速利用GPT-4o的视觉能力，识别出图片中包含鸡蛋、菠菜、蘑菇和鸡腿肉。

它识别了Gus's Market，我心想：“对，听起来不错。”类似于OpenTable，它实例化了一个浏览器并开始执行任务。我扩展了视图来观察它的操作。

在这两种情况下，你都指定了要它使用什么。如果你只是说“帮我买这些杂货”，而没有指定Instacart，它将使用搜索引擎进行搜索，就像我们平时会做的那样。

它会直接找到Instacart或Guss Market的网站，或者搜索引擎上的其他内容。它会浏览这些内容，如果需要澄清，会向您提问，然后继续进行。

我对这里发生的事情很好奇，Ray。你愿意给我们讲讲吗？既然你已经看到了一些Operator的功能，让我来谈谈背后的研究。

Operator基于我们在OpenAI训练的一个新模型，我们称之为计算机使用代理，简称CUA。CUA是一个基于GPT-4o构建的模型。

但它也被训练以像人类一样使用和控制电脑，只需通过观察屏幕并利用鼠标和键盘。以前，如果你想构建一个类似Operator但没有CUA的系统，你需要依赖专门的API。

例如，如果你想让你的模型从Instacart购买商品，你需要确定Instacart是否有API，该API是否包含所有必要的功能，然后为你的模型提供该API的规格。然而，如果你的网站像大多数网站一样缺乏API，那你就会束手无策。

这种方法完全依赖于截图，不涉及任何API，并且直接与用户互动。这就是CUA发挥作用的地方。通过教会模型使用我们日常使用的基本界面，它解锁了之前无法访问的全新软件范围。

这涉及到使用键盘和鼠标，这本质上是我们与计算机交互的方式。这个令人兴奋的研究项目的核心在于消除我们实现通用人工智能（AGI）道路上的另一个瓶颈。它使我们的AI代理能够在数字领域中导航和执行操作。

为了更好地理解这一点，让我们考察一个具体任务，并观察操作员如何使用计算机。尽管看起来任务已经完成，但为了清晰起见，让我们重新回顾一下开始的部分。

我随机选择了一个位置。当AI代理控制电脑时，它首先要做的是查看截图。现在，你可能看到的是Instacart网站上关于鸡蛋的搜索结果页面。AI代理能够理解这一点，尽管它看到的只是原始屏幕像素。

在AI代理处理完这张图像后，它会决定下一步要做什么。目前，它正在进行内部独白，这是其思维链的总结。根据它的推理，它正在选择有机鸡蛋并将其添加到购物车中，这是一个合理的行动。

完成此计划后，它将确定下一步要采取的行动。让我们观察它在接下来的步骤中做了什么。你可以看到它执行了点击“添加”按钮的操作，这是一个逻辑上的动作。每次人工智能代理执行一个动作时，它都会捕获电脑的新截图，以评估其动作的影响。现在，点击“添加”按钮后，商品出现在购物车中。

这个过程持续进行。让我们观察它接下来会做什么。它创建下一个子计划，这包括添加鸡蛋和寻找菠菜。它现在很可能会寻找菠菜。它点击搜索栏并输入“菠菜”。这个采取行动、捕捉截图和生成新子计划的循环会一直持续，直到操作员确定任务完成，此时它会将控制权交还给你。

观察它的思维过程真是令人着迷。让我们回到实时会话。操作员已经完成了任务。亚什，你想验证一下操作员是否正确地执行了你的工作吗？

当然，我们来检查一下。实际上，我觉得我们还需要一些鸡蛋。我们消耗的鸡蛋相当多。在这个时候，我可以点击“接管控制”按钮。正如我们之前讨论的，操作员会启动一个远程浏览器来执行任务。

我们将其设想为一个共享的工作空间，操作员和我可以在此协作。例如，在这种情况下，我从操作员手中接管了控制权，这对于我们的用户交互和控制概念至关重要。在任何时刻，用户都应该有能力接管控制，向操作员提供指令，或提供额外的指导。这就像来回传递笔记本电脑一样，就像你和雷做的那样。完全正确。在这种情况下，我将处理那两项任务。

操作员在接管模式下能看到你在做什么吗？这是一个很好的问题。当你接管时，它类似于使用本地浏览器的会话——完全私密。操作员无法看到你的操作。这也是我强调你不需要通知操作员的原因之一。操作员只能查看最后的截图并尝试推断你的操作，但这并非必要。

这类似于一个场景，我们正在一起工作，我离开去完成一个任务，但回来时说：“雷，我彻底搞砸了。你能修复这个吗？”在这种情况下，我会通知操作员：“嘿，继续吧，”然后控制权交还给他们。当你接管控制时，该会话仍然完全私密。你会注意到我这里登录了Instacart。

我在演示前已经登录了，它非常像你们的本地浏览器。当你登录Instacart时，你会一直保持登录状态，直到清除cookies。我们有强大的控制功能，允许你随时管理和删除设置。

让我们继续。我会跳过支付部分。我们再尝试几个任务好吗？

我听说湖人队这周末要来我们镇。我们大家能去看比赛吗？我们会用StubHub。你能帮我们买四张勇士队比赛的票吗，不是湖人队的比赛？这周末在旧金山。最好是500美元以下的最佳座位。

给我们一些选项。这里有哪些应用程序可用？我们在不同类别中有各种应用程序，正如主页所示，包括StubHub、Target和Etsy。然而，Operator不仅限于这些应用程序；它几乎可以与任何网站配合使用。

不知怎么的，它被阻塞了。让我们看看。我们来试着修复它。这是一个很好的例子，展示了在实时演示中事情可能会出错的情况。 我们已经实施了一个保护机制，限制只有操作员才能访问DPS站点。看来可能是重定向导致了这个问题。好了，一切就绪。我们继续吧。酷。

所以，正如我们讨论的，这是一个远程浏览器，它能够执行广泛的任务。正如Sam之前提到的，其中一个关键优势是能够并行处理多个任务。

让我们尝试更多的任务。澳大利亚公开赛目前正在举行，我从中受到了很多启发。你看了四分之一决赛吗？我一直密切关注着它们。

很好。现在，我要尝试找到一个网球代码。你能检查一下圣玛丽网球代码是否可用吗？

好的，我提到圣玛丽是因为我住在布鲁内尔高地，那里离得很近。在发生这些的同时，我们也——当时，你没有指定一个网站。我可以快速回去检查一下。在这种情况下，它正在做我们通常会做的事情：去搜索引擎并使用互联网。完全正确。

我还将举办一个超级碗派对，你们都受到邀请。谢谢。但我需要打扫房子。你能帮我在下周找找家政清洁工吗？

最后，整个团队一直在非常努力地为大家呈现这一切。我们这里有一个庞大的团队，每个人都在辛勤工作。我们开始饿了——我没吃早餐，虽然早餐吃披萨有点不寻常，但我想吃披萨。没关系。所以，我要订一些披萨。这次我们会用DoorDash。你能确保包括烤肉披萨，但也选一些其他口味的吗？很难不说“请”——我觉得我对它得特别客气，而我也确实如此。

如果餐厅关门了，就安排一下吧。我喜欢你跟它对话。我在心里自言自语，然后打出来。我要提的一点是，它在以一种更好的方式让我确认我说的话。是的，我们看不到直播中弹出的通知，但例如，在其他任务进行时，如果我需要帮助，它会问我，“嘿，941100对吗？”我只需回答是。我会收到通知，所以每当操作员需要帮助时，我们都可以介入。

在这种情况下，它已经为我们找到了丹尼斯·科茨。好的，我们有一些选择要做。哇，所有的座位都很棒。

现在是讨论我们一直在开发的人在回路交互模式的好时机。你可以观察到，操作员在执行任何重要操作之前都会请求确认。

是的，我们对于操作员AI处理日常任务的愿景都感到非常兴奋。然而，这是我们首次向世界发布的具有现实世界副作用的代理之一。因此，我们已仔细考虑如何安全部署它。

我们用来处理这个问题的框架主要围绕错位展开。例如，如果用户出现错位怎么办？他们可能会请求执行有害的任务，比如购买武器或类似的事情。

在这种情况下，幸运的是，我们已经与ChatGPT进行了大量工作，以实施许多相同的缓解措施。例如，我们拒绝有害任务，包括有害的代理任务。我们利用审核模型、事后检测，并封锁某些网站。在我列举这些缓解措施时，这确实是我们处理问题的方式：一个分层的缓解措施堆栈，逐步将风险降低到我们对其部署感到自信的水平。

所以，我们正在讨论的所有确认，例如“您想预订餐厅吗？”或“您应该买票吗？”都是同一概念的例子。现在，我将更详细地讨论确认。

另一个错位领域出现在代理错位时。例如，如果模型犯了错误，比如购买了错误的商品或预订了错误的酒店房间，我们的主要缓解策略是使用确认。在这种情况下，操作员会在采取任何有状态行动之前进行干预。

第三个错位领域出现在网站错位时。这可能涉及欺诈或虚假网站，甚至直接的请求，如“操作员，请给我汇100美元。”我们已经设计了我们的模型来避免遵循此类指令。然而，如果模型未能检测到这些问题，我们还有一层额外的保护措施，称为提示注入监控器。

将其视为一种防病毒程序，它观察和监控你的轨迹，检测任何可疑活动。如果发现异常，它会暂停进程。

我们对我们的方法充满信心，但安全是一个持续的过程。我们无法预测一切，因此我们希望从这次部署中学习，并在进展过程中不断改进我们的缓解措施。这也是我们从小规模开始的原因之一——我们旨在迭代、收集反馈，并逐步推广到每个人。

确实。我们应该检查一下任务的状态吗？让我们检查一下状态。看来票已经可以购买了。是的，请。那很好。我可以让它订票，但现在我会先关闭它。就一次，请。继续。看起来我们正在添加披萨。

00:19:21 - 00:19:48

哦，酷。我马上要在这里登录。这是一个我需要登录或输入我的凭证来购买这些票的例子。

正如所描述的，操作员要求确认并确保控制权在正确的位置，让我们能够接管控制。在这一点上，正如我们之前讨论的，这个会话是完全私密的。我将实时登录，看看情况如何。

现在，我可以选择在这里继续购买，或者让操作员来做。不过，我会自己继续进行，并迅速完成这次购买。

点击，点击，点击。一切看起来都很好。订单完成。 立即购买。也许我不想显示那行字。看看吧。我想我要购买这些票。好的。哎呀。行了。我要取消这张卡。应该没问题。好了。我都搞定了。

感谢您的帮助。那么，这在实践中有多可靠呢？虽然我们已经看到了许多令人印象深刻的演示，但重要的是要注意，Operator目前是一个研究预览版。它会犯错误，并不完美。然而，我们可以通过一些基准测试来量化其当前的性能。我们将要查看的第一个基准测试叫做OSworld。

OSworld 是一项评估，用于衡量AI代理在常见操作系统（如Linux）中的导航能力。在此任务中，CUA 获得了38.1%的得分，这高于其他公开发布的结果。人类在此任务中的表现是72.4%，这表明仍有显著的提升空间。

我们将要考察的另一个评估称为WebArena。WebArena是一种评估，用于衡量AI代理在常见网站（如电子商务或社交论坛网站）上的导航能力。在这个任务上，Kua的得分为58.1%，这高于其他公开发布的结果，但仍然不及人类的表现。仍有进步空间。

还有很长的路要走，是的。Web Arena的一个重要方面是，尽管它运行在网络上，但它使用的是与屏幕、鼠标和键盘相同的通用界面。它不会接收到任何可以帮助完成任务的其他信息，比如网页的原始文本或可点击按钮的细节。就像人类一样，它完全依赖于截图中的信息。目前，在Operator中，我们正在使用浏览器，但是……