视频来源
https://www.bilibili.com/video/BV1tYf7YnEvW?p=1
大纲
-
AI助手:Operator简介
- AI助手的定义
-
能够独立执行任务的AI系统。
-
被分配的任务自主执行。
-
- AI助手的影响
-
AI领域的重要趋势。
-
对工作、生产力、创造力和成就产生深远影响。
-
- Operator的推出
-
首次引入的AI助手。
-
利用基于云的网页浏览器。
-
首先在美国面向专业用户推出。
-
未来几个月内将推广到其他国家及高级用户。
-
早期研究预览,计划进行改进。
-
- AI助手的定义
-
Operator演示
- Operator主页
-
界面类似ChatGPT。
-
用户输入提示,Operator执行任务。
-
预填提示作为任务示例。
-
- 与品牌的合作
-
与OpenTable、Allrecipes、Ticketmaster、Uber、Thumbtack、DoorDash、eBay和Target合作。
-
确保在这些平台上的无缝功能。
-
- 演示:使用OpenTable预订餐桌
-
任务:为两人预订晚上7点的Beretta餐桌。
-
Operator实例化一个远程浏览器。
-
自主导航和任务执行。
-
为位置(旧金山)提供自定义指令。
-
不可逆操作前的确认过程。
-
- 演示:使用Instacart购买杂货
-
任务:购买鸡蛋、菠菜、蘑菇、鸡大腿和辣椒酱。
-
Operator使用GPT-4o的视觉能力识别物品。
-
自主任务执行,需用户确认。
-
用户可在任何时刻接管控制。
-
- Operator主页
-
Operator背后的研究
- 计算机使用代理(CUA)
-
基于GPT-4o构建的模型。
-
训练以像人类一样使用和控制计算机。
-
消除了对专用API的需求。
-
直接与用户界面(键盘和鼠标)工作。
-
- 任务执行过程
-
AI助手观察截图并决定行动。
-
内部独白和总结的思维链。
-
行动、截图和子计划的持续循环。
-
任务完成并将控制权返回给用户。
-
- 计算机使用代理(CUA)
-
用户交互与控制
- 接管模式
-
用户可以从Operator手中接管控制。
-
用户控制期间会话保持私密。
-
接管期间Operator无法看到用户操作。
-
- 确认过程
-
Operator在执行重要操作前寻求确认。
-
确保用户与任务执行一致。
-
- 接管模式
-
安全与缓解措施
- 错位场景
-
用户错位:拒绝有害任务。
-
助手错位:在执行有状态操作前进行确认。
-
网站错位:防止欺诈网站。
-
- 提示注入监控
-
作为防病毒工具检测可疑活动。
-
检测到可疑活动时暂停进程。
-
- 错位场景
-
性能基准
- OSworld评估
-
衡量AI助手在常见操作系统上的导航能力。
-
CUA得分38.1%,高于其他已发布结果。
-
人类性能为72.4%。
-
- WebArena评估
-
衡量AI助手在常见网站上的导航能力。
-
CUA得分58.1%,高于其他已发布结果。
-
人类性能仍更高。
-
- OSworld评估
-
未来计划与推广
- 逐步推广
-
首先在美国面向专业用户推出。
-
几周内提供API。
-
- 持续改进
-
早期研究预览,持续进行增强。
-
基于反馈的迭代,用于未来发布。
-
- 逐步推广
-
结论
- Operator的重要性
-
委派任务以提高生产力。
-
早期阶段,具有显著进步的潜力。
-
- 对未来的期待
-
进入三级代理。
-
期待用户合作和未来方向。
-
- Operator的重要性
总结
一句话总结
-
Operator是一款能够使用网页浏览器自主执行任务的AI代理,由OpenAI作为早期研究预览推出,具有深刻影响生产力和创造力的潜力。
要点
-
Operator可以利用基于云的网页浏览器自主执行任务。
-
该系统最初将在美国面向专业用户推出,计划在未来几个月扩展到其他国家及普通用户。
-
Operator与OpenTable、Instacart和StubHub等平台无缝衔接,提升了用户与这些服务的互动体验。
-
Operator的性能正在不断提升,当前基准测试显示已有显著进步,但仍存在提升空间。
-
OpenAI旨在使Operator广泛可用,易于用户获取,逐步推广将从美国的专业用户开始。
深度问答
-
什么是Operator?
-
Operator是一款能够使用网页浏览器自主执行任务的AI代理。
-
-
Operator如何工作?
-
Operator使用基于云的网页浏览器浏览和与网站互动,根据用户指令执行任务。
-
-
Operator目前的局限性是什么?
-
Operator仍处于研究预览阶段,可能会犯错。其性能虽令人印象深刻,但尚未达到人类水平。
-
-
OpenAI如何确保Operator的安全性?
-
OpenAI已实施多种安全措施,包括拒绝有害任务、使用审核模型以及设置提示注入监控以检测可疑活动。
-
-
Operator的未来是什么?
-
OpenAI计划继续提升Operator的性能和可访问性,逐步推广给更多用户,并推出面向开发者的API。
-
关键词标签
-
AI代理
-
Operator
-
自主任务
-
网页浏览器
-
OpenAI
目标受众
-
对美国有兴趣使用AI提升生产力和创造力的专业用户。
-
希望通过即将推出的API利用Operator能力构建应用的开发者。
-
对探索AI代理潜力感兴趣的科技爱好者和早期采用者。
术语解释
-
AI代理:能够独立执行任务的AI系统。
-
Operator:OpenAI的AI代理,可以使用网页浏览器自主执行任务。
-
CUA:计算机使用代理,一种训练有素、能像人类一样使用和控制计算机的模型。
-
AGI:通用人工智能,AI在理解、学习和应用知识方面与人类无法区分的假设能力。
-
API:应用程序编程接口,一套规则和协议,允许不同软件应用程序之间相互通信。
早上好。今天我们有令人兴奋的消息要和大家分享。我们即将推出我们的首款AI代理。AI代理是能够独立执行任务的AI系统。你只需分配任务,它们就能自主执行。我们相信这将成为AI领域的一个重要趋势,深刻影响人们的工作方式、生产力、创造力以及整体成就。
今天,我们介绍的是Operator,一个能够利用网络浏览器的系统,特别是基于云的网络浏览器。
此功能将于今天在美国面向专业用户推出,其他国家也将很快跟进。遗憾的是,欧洲地区将需要更长时间,并且在未来几个月内也将向高级用户开放。
这是一个早期研究预览。我们计划进行许多改进,以提高其质量,降低成本,并增加可访问性。我们的目标是使其广泛适用于用户。 此外,我们将在未来几周和几个月内推出更多代理。我们将在稍后讨论更多细节。现在,让我们进行演示。我将把话筒交给Yash。
很好。谢谢,Sam。大家好,我是Yash。这是Casey,那是Ray。我们是计算机使用代理团队的一部分,我们很高兴今天能展示Operator。正如Sam所提到的,Operator是一个早期研究预览。
它将执行许多令人印象深刻的任务,尽管偶尔会犯错,其中一些错误可能会相当尴尬。让我展示一下操作员能做什么。
这是操作员的主页,位于operator.ChatGPT.com,直播结束后即可访问。如您所见,界面与ChatGPT非常相似。您可以输入一个提示,操作员将尽力执行任务。
此外,您会注意到这里有一系列预填的提示。这些并非作为推荐,而是作为可执行任务的示例。
为了展示Operator的功能,我们与OpenTable、Allrecipes、Ticketmaster、Uber、Thumbtack、DoorDash、eBay和Target等众多品牌进行了合作。这确保了Operator在这些平台上能够无缝运行,我们相信用户会发现它在互动这些服务时极具价值。
现在,让我们深入到一个演示中。我将从一个使用OpenTable的简单示例开始。
今晚7点在贝雷塔预订一张两人的桌子。在这种情况下,我特意选择了OpenTable。我要求接线员使用OpenTable在旧金山的贝雷塔餐厅预订一张两人的桌子。那是一个很棒的地方,你应该去试试。虽然这里我使用了OpenTable,但直接说“贝雷塔”可能也会转到同一个平台。
搜索引擎也已经学会了如何进行预订。让我们来观察它的功能。你能解释一下这里发生了什么吗?
非常好。 我会稍微展开说明一下。当我输入查询后,操作员立即实例化了一个完全远程的浏览器。这个浏览器在云端运行,正如你所见,它已经可以操作了。我的手离开了键盘;我没有输入任何内容。AI正在自主导航,四处点击,没有任何手动输入。
它启动了这个浏览器会话。它知道OpenTable网站的位置,即opentable.com。正如你所见,这里也有一个总结性的思维链条。它访问了URL,搜索了Beretta,然后发生了一些有趣的事情:出于某种原因,OpenTable认为我们在弗吉尼亚,但它自动更正为旧金山。这是在使用ChatGPT。在Operator中,你也可以提供自定义指令。我将在这里快速演示一下。
00:03:33 - 00:03:48
我已经提供了一个自定义指令,指定对于相关查询,我居住在旧金山。操作员识别到了这一点,并自动调整为搜索Beretta。虽然晚上7点不可用,但晚上7点45分完全没问题,所以我们将按照这个时间进行预订。
在这种情况下,操作员返回,展示了任务委派的一个良好示例,即当操作员需要协助或需要提问时。它会返回并提供答案。在实际操作中,你无需监控此过程。你可以让它后台运行,同时处理其他任务。例如,如果晚上7点的预订不可用,它会通知你。从网页应用开始,你会收到通知,当操作员切换到移动端时,你会收到类似一般应用交互的移动通知。
这种交互非常直接,类似于与助手合作。例如,操作员可能会告诉你晚上7点的预订不可用,并建议改为7点45分。这也突显了我们稍后将讨论的确认过程。在进行不可逆操作(如预订)之前,操作员会寻求确认。在这种情况下,我会回答:“就这么办。”
好的,非常快——大约50秒。正如Sam提到的,我们启动了流程并观察了结果。不幸的是,那张桌子已经不可用了,所以它可能会寻找其他时间段。这实际上非常令人印象深刻。
那以前从未发生过。我们15点开始吧。在处理过程中,我们尝试一些更复杂的事情怎么样?我喜欢烹饪,并且一直在用Operator来购买所有杂货。这是我的购物清单:鸡蛋、菠菜、蘑菇、鸡腿肉和辣椒脆。
所以,这是你正在上传的图片。完全正确。我将使用Instacart,这是我们通常使用的。你能帮我把这个买了吗?我还会指定我偏好的商店。让我们看看它是否能找出我遗漏的东西。
在这种情况下,操作员迅速利用GPT-4o的视觉能力,识别出图片中包含鸡蛋、菠菜、蘑菇和鸡腿肉。
它识别了Gus's Market,我心想:“对,听起来不错。”类似于OpenTable,它实例化了一个浏览器并开始执行任务。我扩展了视图来观察它的操作。
在这两种情况下,你都指定了要它使用什么。如果你只是说“帮我买这些杂货”,而没有指定Instacart,它将使用搜索引擎进行搜索,就像我们平时会做的那样。
它会直接找到Instacart或Guss Market的网站,或者搜索引擎上的其他内容。它会浏览这些内容,如果需要澄清,会向您提问,然后继续进行。
我对这里发生的事情很好奇,Ray。你愿意给我们讲讲吗?既然你已经看到了一些Operator的功能,让我来谈谈背后的研究。
Operator基于我们在OpenAI训练的一个新模型,我们称之为计算机使用代理,简称CUA。CUA是一个基于GPT-4o构建的模型。
但它也被训练以像人类一样使用和控制电脑,只需通过观察屏幕并利用鼠标和键盘。以前,如果你想构建一个类似Operator但没有CUA的系统,你需要依赖专门的API。
例如,如果你想让你的模型从Instacart购买商品,你需要确定Instacart是否有API,该API是否包含所有必要的功能,然后为你的模型提供该API的规格。然而,如果你的网站像大多数网站一样缺乏API,那你就会束手无策。
这种方法完全依赖于截图,不涉及任何API,并且直接与用户互动。这就是CUA发挥作用的地方。通过教会模型使用我们日常使用的基本界面,它解锁了之前无法访问的全新软件范围。
这涉及到使用键盘和鼠标,这本质上是我们与计算机交互的方式。这个令人兴奋的研究项目的核心在于消除我们实现通用人工智能(AGI)道路上的另一个瓶颈。它使我们的AI代理能够在数字领域中导航和执行操作。
为了更好地理解这一点,让我们考察一个具体任务,并观察操作员如何使用计算机。尽管看起来任务已经完成,但为了清晰起见,让我们重新回顾一下开始的部分。
我随机选择了一个位置。当AI代理控制电脑时,它首先要做的是查看截图。现在,你可能看到的是Instacart网站上关于鸡蛋的搜索结果页面。AI代理能够理解这一点,尽管它看到的只是原始屏幕像素。
在AI代理处理完这张图像后,它会决定下一步要做什么。目前,它正在进行内部独白,这是其思维链的总结。根据它的推理,它正在选择有机鸡蛋并将其添加到购物车中,这是一个合理的行动。
完成此计划后,它将确定下一步要采取的行动。让我们观察它在接下来的步骤中做了什么。你可以看到它执行了点击“添加”按钮的操作,这是一个逻辑上的动作。每次人工智能代理执行一个动作时,它都会捕获电脑的新截图,以评估其动作的影响。现在,点击“添加”按钮后,商品出现在购物车中。
这个过程持续进行。让我们观察它接下来会做什么。它创建下一个子计划,这包括添加鸡蛋和寻找菠菜。它现在很可能会寻找菠菜。它点击搜索栏并输入“菠菜”。这个采取行动、捕捉截图和生成新子计划的循环会一直持续,直到操作员确定任务完成,此时它会将控制权交还给你。
观察它的思维过程真是令人着迷。让我们回到实时会话。操作员已经完成了任务。亚什,你想验证一下操作员是否正确地执行了你的工作吗?
当然,我们来检查一下。实际上,我觉得我们还需要一些鸡蛋。我们消耗的鸡蛋相当多。在这个时候,我可以点击“接管控制”按钮。正如我们之前讨论的,操作员会启动一个远程浏览器来执行任务。
我们将其设想为一个共享的工作空间,操作员和我可以在此协作。例如,在这种情况下,我从操作员手中接管了控制权,这对于我们的用户交互和控制概念至关重要。在任何时刻,用户都应该有能力接管控制,向操作员提供指令,或提供额外的指导。这就像来回传递笔记本电脑一样,就像你和雷做的那样。完全正确。在这种情况下,我将处理那两项任务。
操作员在接管模式下能看到你在做什么吗?这是一个很好的问题。当你接管时,它类似于使用本地浏览器的会话——完全私密。操作员无法看到你的操作。这也是我强调你不需要通知操作员的原因之一。操作员只能查看最后的截图并尝试推断你的操作,但这并非必要。
这类似于一个场景,我们正在一起工作,我离开去完成一个任务,但回来时说:“雷,我彻底搞砸了。你能修复这个吗?”在这种情况下,我会通知操作员:“嘿,继续吧,”然后控制权交还给他们。当你接管控制时,该会话仍然完全私密。你会注意到我这里登录了Instacart。
我在演示前已经登录了,它非常像你们的本地浏览器。当你登录Instacart时,你会一直保持登录状态,直到清除cookies。我们有强大的控制功能,允许你随时管理和删除设置。
让我们继续。我会跳过支付部分。我们再尝试几个任务好吗?
我听说湖人队这周末要来我们镇。我们大家能去看比赛吗?我们会用StubHub。你能帮我们买四张勇士队比赛的票吗,不是湖人队的比赛?这周末在旧金山。最好是500美元以下的最佳座位。
给我们一些选项。这里有哪些应用程序可用?我们在不同类别中有各种应用程序,正如主页所示,包括StubHub、Target和Etsy。然而,Operator不仅限于这些应用程序;它几乎可以与任何网站配合使用。
不知怎么的,它被阻塞了。让我们看看。我们来试着修复它。这是一个很好的例子,展示了在实时演示中事情可能会出错的情况。 我们已经实施了一个保护机制,限制只有操作员才能访问DPS站点。看来可能是重定向导致了这个问题。好了,一切就绪。我们继续吧。酷。
所以,正如我们讨论的,这是一个远程浏览器,它能够执行广泛的任务。正如Sam之前提到的,其中一个关键优势是能够并行处理多个任务。
让我们尝试更多的任务。澳大利亚公开赛目前正在举行,我从中受到了很多启发。你看了四分之一决赛吗?我一直密切关注着它们。
很好。现在,我要尝试找到一个网球代码。你能检查一下圣玛丽网球代码是否可用吗?
好的,我提到圣玛丽是因为我住在布鲁内尔高地,那里离得很近。在发生这些的同时,我们也——当时,你没有指定一个网站。我可以快速回去检查一下。在这种情况下,它正在做我们通常会做的事情:去搜索引擎并使用互联网。完全正确。
我还将举办一个超级碗派对,你们都受到邀请。谢谢。但我需要打扫房子。你能帮我在下周找找家政清洁工吗?
最后,整个团队一直在非常努力地为大家呈现这一切。我们这里有一个庞大的团队,每个人都在辛勤工作。我们开始饿了——我没吃早餐,虽然早餐吃披萨有点不寻常,但我想吃披萨。没关系。所以,我要订一些披萨。这次我们会用DoorDash。你能确保包括烤肉披萨,但也选一些其他口味的吗?很难不说“请”——我觉得我对它得特别客气,而我也确实如此。
如果餐厅关门了,就安排一下吧。我喜欢你跟它对话。我在心里自言自语,然后打出来。我要提的一点是,它在以一种更好的方式让我确认我说的话。是的,我们看不到直播中弹出的通知,但例如,在其他任务进行时,如果我需要帮助,它会问我,“嘿,941100对吗?”我只需回答是。我会收到通知,所以每当操作员需要帮助时,我们都可以介入。
在这种情况下,它已经为我们找到了丹尼斯·科茨。好的,我们有一些选择要做。哇,所有的座位都很棒。
现在是讨论我们一直在开发的人在回路交互模式的好时机。你可以观察到,操作员在执行任何重要操作之前都会请求确认。
是的,我们对于操作员AI处理日常任务的愿景都感到非常兴奋。然而,这是我们首次向世界发布的具有现实世界副作用的代理之一。因此,我们已仔细考虑如何安全部署它。
我们用来处理这个问题的框架主要围绕错位展开。例如,如果用户出现错位怎么办?他们可能会请求执行有害的任务,比如购买武器或类似的事情。
在这种情况下,幸运的是,我们已经与ChatGPT进行了大量工作,以实施许多相同的缓解措施。例如,我们拒绝有害任务,包括有害的代理任务。我们利用审核模型、事后检测,并封锁某些网站。在我列举这些缓解措施时,这确实是我们处理问题的方式:一个分层的缓解措施堆栈,逐步将风险降低到我们对其部署感到自信的水平。
所以,我们正在讨论的所有确认,例如“您想预订餐厅吗?”或“您应该买票吗?”都是同一概念的例子。现在,我将更详细地讨论确认。
另一个错位领域出现在代理错位时。例如,如果模型犯了错误,比如购买了错误的商品或预订了错误的酒店房间,我们的主要缓解策略是使用确认。在这种情况下,操作员会在采取任何有状态行动之前进行干预。
第三个错位领域出现在网站错位时。这可能涉及欺诈或虚假网站,甚至直接的请求,如“操作员,请给我汇100美元。”我们已经设计了我们的模型来避免遵循此类指令。然而,如果模型未能检测到这些问题,我们还有一层额外的保护措施,称为提示注入监控器。
将其视为一种防病毒程序,它观察和监控你的轨迹,检测任何可疑活动。如果发现异常,它会暂停进程。
我们对我们的方法充满信心,但安全是一个持续的过程。我们无法预测一切,因此我们希望从这次部署中学习,并在进展过程中不断改进我们的缓解措施。这也是我们从小规模开始的原因之一——我们旨在迭代、收集反馈,并逐步推广到每个人。
确实。我们应该检查一下任务的状态吗?让我们检查一下状态。看来票已经可以购买了。是的,请。那很好。我可以让它订票,但现在我会先关闭它。就一次,请。继续。看起来我们正在添加披萨。
00:19:21 - 00:19:48
哦,酷。我马上要在这里登录。这是一个我需要登录或输入我的凭证来购买这些票的例子。
正如所描述的,操作员要求确认并确保控制权在正确的位置,让我们能够接管控制。在这一点上,正如我们之前讨论的,这个会话是完全私密的。我将实时登录,看看情况如何。
现在,我可以选择在这里继续购买,或者让操作员来做。不过,我会自己继续进行,并迅速完成这次购买。
点击,点击,点击。一切看起来都很好。订单完成。 立即购买。也许我不想显示那行字。看看吧。我想我要购买这些票。好的。哎呀。行了。我要取消这张卡。应该没问题。好了。我都搞定了。
感谢您的帮助。那么,这在实践中有多可靠呢?虽然我们已经看到了许多令人印象深刻的演示,但重要的是要注意,Operator目前是一个研究预览版。它会犯错误,并不完美。然而,我们可以通过一些基准测试来量化其当前的性能。我们将要查看的第一个基准测试叫做OSworld。
OSworld 是一项评估,用于衡量AI代理在常见操作系统(如Linux)中的导航能力。在此任务中,CUA 获得了38.1%的得分,这高于其他公开发布的结果。人类在此任务中的表现是72.4%,这表明仍有显著的提升空间。
我们将要考察的另一个评估称为WebArena。WebArena是一种评估,用于衡量AI代理在常见网站(如电子商务或社交论坛网站)上的导航能力。在这个任务上,Kua的得分为58.1%,这高于其他公开发布的结果,但仍然不及人类的表现。仍有进步空间。
还有很长的路要走,是的。Web Arena的一个重要方面是,尽管它运行在网络上,但它使用的是与屏幕、鼠标和键盘相同的通用界面。它不会接收到任何可以帮助完成任务的其他信息,比如网页的原始文本或可点击按钮的细节。就像人类一样,它完全依赖于截图中的信息。目前,在Operator中,我们正在使用浏览器,但是……
我可以在运行Ubuntu、Mac或任何其他操作系统的电脑上使用这个模型。在过去的15分钟里,我设法完成了本周所有的杂务:购买杂货、预订清洁工以及确保票务。所有人都已确认出席。
这就是Operator变得极具价值的地方,因为它允许我们将那些本可以自己完成的任务委托给它。
我们可以共同取得显著进展。偶尔,我们可能会遇到障碍,但正如之前提到的,现在还为时尚早。我们可以随着时间的推移重新审视并加以改进,它会持续变得更好。
最后再提一点:我们今天正式推出这一功能,从逐步上线开始。到今天结束时,美国所有的Pro用户都将能够使用。此外,我们正在开发API,几周后,这一模型将通过API上线。
祝贺大家。这是令人难以置信的工作,发布它让人感到兴奋。我相信人们会喜欢它。正如所提到的,现在还为时尚早,但我们有着悠长且辉煌的历史,早期研究预览最终演变成人们真正喜爱的产品。
这标志着该产品的起点,以及我们迈入三级代理层级的第一步。我们渴望看到人们如何使用它,并与我们合作确定其未来的发展方向。再次祝贺大家。