AI进化！OpenAI 推出“超级AI助手”有多强？跟Claude的“Computer Use”有何不同？

本文链接：https://blog.csdn.net/Survivor_sl/article/details/145352802

昨晚，OpenAI不声不响，再次祭出大招！推出了他们的首个L3级智能体——Operator，向着通用人工智能（AGI）迈出了重要一步。

大家的感受是：

远超预期！

今天就把OpenAI Operator的亮点，用通俗易懂的方式给大家说一下，再看看它跟Claude的“Computer Use”有哪些差异。

一、CUA如何让AI “看懂” 和 “操作” 电脑？

Operator之所以如此强大，离不开它的核心技术“Computer-Using Agent” (CUA)。

CUA结合了多项前沿技术，使其能够像人类一样理解和操作网页：

视觉感知+深度推理：CUA具备强大的视觉识别能力，能够像人类一样“看懂”电脑屏幕，理解屏幕上的内容和元素，还能进行复杂的逻辑推理，将任务分解成多个步骤，并逐步完成。
无需API，通用操作：CUA不需要针对特定系统或网站的API接口，能直接通过鼠标和键盘操作，真正实现通用化操作，说白了就像人类一样使用电脑。
深度推理： CUA能够像人一样思考，理解用户指令，并将复杂的任务分解成多个步骤。它会使用 “链式思考（Chain-of-thought）” 方法，结合当前屏幕状态和历史操作，动态调整执行策略。
强化学习： CUA通过强化学习进行训练，模拟人类的鼠标和键盘操作，能够在网页上进行点击、滚动、输入等各种操作，实现与图形用户界面（GUIs）的交互。

正是这些核心技术的结合，让CUA具备了 “看懂” 网页、 “思考” 操作步骤、以及 “执行” 操作的能力，从而让 Operator 能够完成各种复杂的任务。

二、3大亮点：Operator的核心优势

基于CUA的强大能力，Operator拥有三大核心优势：

能看会动：
1. “能看”： 得益于GPT-4o强大的视觉能力，Operator能够理解网页上的各种元素，包括按钮、菜单、文本框等。
2. “会动”： Operator可以模拟人类的鼠标和键盘操作，在网页上进行点击、滚动、输入等各种操作，与网页进行交互，跟人类操作一样，无需API接口。
自主工作：
1. 任务分解： Operator可以理解用户的指令，将其分解为多个可执行的步骤。
2. 独立执行： Operator能够根据任务步骤，在网页上自动执行相应的操作。
3. 自我纠正： 如果遇到错误或挑战，Operator可以利用其推理能力进行自我纠正。
4. 寻求帮助： 如果遇到无法解决的问题，Operator可以将控制权交还给用户，请求帮助。
安全可靠：

OpenAI在安全性上也是下足了功夫，为Operator设计了多重防护措施。
1. 用户控制： 用户在整个过程中始终处于控制地位，可以随时接管Operator的操作。
2. 敏感信息保护： 在需要输入登录凭证或支付信息等敏感信息时，Operator会主动请求用户接管。
3. 任务限制： Operator被训练拒绝执行某些敏感任务，例如银行交易或涉及重要决策的任务。
4. 数据隐私： 用户可以自由选择是否使用数据训练模型，并可以一键删除所有浏览数据和历史记录。
5. 恶意攻击防御： Operator具备检测和忽略 “提示注入” 等恶意代码的能力，并通过 “监控模型” 实时监测异常行为。

三、Operator有哪些应用场景？

Operator的应用场景还是很广泛，如果可以结合Task功能一起使用，很大程度有望取代目前的RPA。比如一些重复性的工作：

自动化办公： 自动处理重复性工作，提高工作效率，比如自动填写各种表格、录入数据等。
信息查询和整理： 自动在网上搜索特定信息并进行整理。
内容创作： 自动制作表情包、撰写简单的文章等。
智能助手： 管理日程，提醒重要事项。

关键是如果他能完全模仿人类的操作，那平台到时是不是就很难识别了？

这波对搞流量的人来说，说不定是个好机会。

四、有何不同？对比Claude的 “Computer Use”

Claude作为首个提供此功能的模型，相较于Operator，“Computer Use”能做的：

基于API的操作： Claude的 “Computer Use” 功能通常需要依赖特定的API接口，来实现对特定系统或网站的控制，这与CUA的通用界面操作不同。
文本和代码处理： Claude擅长处理文本和代码，可以通过代码执行一些计算机操作，例如数据分析和自动化任务。
受限的图形界面交互： 与CUA不同，Claude在图形用户界面（GUI）上的交互能力相对有限，更多是通过文本指令来执行操作，它可以查看屏幕截图并分析图像，但并不直接模拟鼠标和键盘操作。

比起“Computer Use”，Operator更像一个“通用AI助手”。