昨晚,OpenAI不声不响,再次祭出大招!推出了他们的首个L3级智能体——Operator,向着通用人工智能(AGI)迈出了重要一步。
大家的感受是:
远超预期!
今天就把OpenAI Operator的亮点,用通俗易懂的方式给大家说一下,再看看它跟Claude的“Computer Use”有哪些差异。
一、CUA如何让AI “看懂” 和 “操作” 电脑?
Operator之所以如此强大,离不开它的核心技术“Computer-Using Agent” (CUA)。
CUA结合了多项前沿技术,使其能够像人类一样理解和操作网页:
-
视觉感知+深度推理:CUA具备强大的视觉识别能力,能够像人类一样“看懂”电脑屏幕,理解屏幕上的内容和元素,还能进行复杂的逻辑推理,将任务分解成多个步骤,并逐步完成。
-
无需API,通用操作:CUA不需要针对特定系统或网站的API接口,能直接通过鼠标和键盘操作,真正实现通用化操作,说白了就像人类一样使用电脑。
-
深度推理: CUA能够像人一样思考,理解用户指令,并将复杂的任务分解成多个步骤。它会使用 “链式思考(Chain-of-thought)” 方法,结合当前屏幕状态和历史操作,动态调整执行策略。
-
强化学习: CUA通过强化学习进行训练,模拟人类的鼠标和键盘操作,能够在网页上进行点击、滚动、输入等各种操作,实现与图形用户界面(GUIs)的交互。
正是这些核心技术的结合,让CUA具备了 “看懂” 网页、 “思考” 操作步骤、以及 “执行” 操作的能力,从而让 Operator 能够完成各种复杂的任务。
二、3大亮点:Operator的核心优势
基于CUA的强大能力,Operator拥有三大核心优势:
-
能看会动:
-
“能看”: 得益于GPT-4o强大的视觉能力,Operator能够理解网页上的各种元素,包括按钮、菜单、文本框等。
-
“会动”: Operator可以模拟人类的鼠标和键盘操作,在网页上进行点击、滚动、输入等各种操作,与网页进行交互,跟人类操作一样,无需API接口。
-
-
自主工作:
-
任务分解: Operator可以理解用户的指令,将其分解为多个可执行的步骤。
-
独立执行: Operator能够根据任务步骤,在网页上自动执行相应的操作。
-
自我纠正: 如果遇到错误或挑战,Operator可以利用其推理能力进行自我纠正。
-
寻求帮助: 如果遇到无法解决的问题,Operator可以将控制权交还给用户,请求帮助。
-
-
安全可靠:
OpenAI在安全性上也是下足了功夫,为Operator设计了多重防护措施。
-
用户控制: 用户在整个过程中始终处于控制地位,可以随时接管Operator的操作。
-
敏感信息保护: 在需要输入登录凭证或支付信息等敏感信息时,Operator会主动请求用户接管。
-
任务限制: Operator被训练拒绝执行某些敏感任务,例如银行交易或涉及重要决策的任务。
-
数据隐私: 用户可以自由选择是否使用数据训练模型,并可以一键删除所有浏览数据和历史记录。
-
恶意攻击防御: Operator具备检测和忽略 “提示注入” 等恶意代码的能力,并通过 “监控模型” 实时监测异常行为。
-
三、Operator有哪些应用场景?
Operator的应用场景还是很广泛,如果可以结合Task功能一起使用,很大程度有望取代目前的RPA。比如一些重复性的工作:
-
自动化办公: 自动处理重复性工作,提高工作效率,比如自动填写各种表格、录入数据等。
-
信息查询和整理: 自动在网上搜索特定信息并进行整理。
-
内容创作: 自动制作表情包、撰写简单的文章等。
-
智能助手: 管理日程,提醒重要事项。
关键是如果他能完全模仿人类的操作,那平台到时是不是就很难识别了?
这波对搞流量的人来说,说不定是个好机会。
四、有何不同?对比Claude的 “Computer Use”
Claude作为首个提供此功能的模型,相较于Operator,“Computer Use”能做的:
-
基于API的操作: Claude的 “Computer Use” 功能通常需要依赖特定的API接口,来实现对特定系统或网站的控制,这与CUA的通用界面操作不同。
-
文本和代码处理: Claude擅长处理文本和代码,可以通过代码执行一些计算机操作,例如数据分析和自动化任务。
-
受限的图形界面交互: 与CUA不同,Claude在图形用户界面(GUI)上的交互能力相对有限,更多是通过文本指令来执行操作,它可以查看屏幕截图并分析图像,但并不直接模拟鼠标和键盘操作。
比起“Computer Use”,Operator更像一个“通用AI助手”。
当然,目前Operator 仍处于早期研究预览阶段,它还存在一些局限性,包括在直播过程中都出现过明显的“翻车”行为,而且现在也仅限美国的Pro用户能用。
但不管怎么说,作为L3级别的智能体,Operator已经为2025年的智能体大战开了一个好头。