OS-Atlas：跨平台GUI智能体的基石行动模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/143422092

🌍 引言：从钢铁侠到桌面上的智能体

还记得《钢铁侠》里的JARVIS吗？那个能帮你安排日常生活、打理事务的全能助手？时至今日，这种幻想正在成为现实。近年来，随着**大语言模型（LLM）**的广泛应用，数字智能体的概念逐渐从科幻走向了现实。我们不再需要手动点击鼠标、打字输入命令，未来的我们只需对智能体说出指令，它便能帮我们完成各种任务。

然而，当前的智能体大多依赖于对文本环境的描述来做出决策，比如HTML结构或可访问性树。这种方式不仅冗长、杂乱，还很难在实际操作中获取。而通过图形用户界面（GUI）直接与操作系统交互的智能体，提供了更灵活、更信息完备的手段。问题在于，现有的开源模型在GUI定位和分布外（OOD）任务上表现不佳，尤其是在面对从未见过的界面时，它们往往“手足无措”。

于是，我们提出了 OS-Atlas，一个专为通用GUI智能体开发的基础行动模型，旨在解决这些问题。OS-Atlas 不仅能够灵活应对不同的操作系统和界面，还通过开源的跨平台数据集和创新的模型训练方法，在GUI定位和OOD任务中展现出显著的性能提升。我们希望，OS-Atlas 能成为未来GUI智能体开发的基石。
在这里插入图片描述

🖼 图形化操作的挑战与机遇

🔍 GUI定位与分布外任务

GUI智能体的核心任务是将自然语言指令转化为可执行的GUI操作，比如根据用户的指示在屏幕上某个位置点击。然而，现有的开源模型在这个过程中常常遇到困难。主要原因有两个：

模型预训练缺乏多平台GUI截图数据。虽然一些早期的研究已经开始针对网页或移动应用收集截图数据，但缺乏一个跨平台的、涵盖多种操作系统和应用的数据集。这就像你学会了开车，却从未见过摩托车，面对新设备时自然会“懵圈”。
数据集异构性和动作命名冲突。不同平台上，类似的操作常常被赋予不同的名称。比如，移动设备上的“轻触（tap）”和桌面端的“点击（click）”其实是一样的动作，但由于命名的差异，模型在训练时容易混淆。这就好比你在学做菜时，发现不同食谱里的“煎”和“炒”其实是一回事，但它们的名字却让你无所适从。

为了应对这些挑战，我们开发了 OS-Atlas，一个跨平台、开源的GUI基础行动模型。其设计初衷是让智能体能够在遇到从未见过的界面时，也能灵活应对，完成任务。

💾 数据创新：跨平台的GUI数据集

🧩 数据集的挑战与突破

在过去的研究中，GUI智能体的数据集往往只集中在单一平台上，比如网页或移动应用。为了打破这种局限性，我们开发了一套多平台GUI定位数据合成工具包，可以自动生成来自Windows、macOS、Linux、Android等平台的GUI数据。这就好比我们为智能体提供了多个“驾驶模拟器”，让它们不仅能在公路上开车，还能在山路上、赛道上甚至水中应对自如。

利用这个工具包，我们创建并开源了迄今为止最大的跨平台GUI定位语料库，包含超过230万张截图和1300万个GUI元素。更重要的是，我们还对现有的一些基准数据集进行了修正，解决了其中11.32%的错误标注问题，并发布了更新版的ScreenSpot-V2基准数据集。

📊 数据集关键统计

数据集名称	截图数量	元素数量	平台
OS-Atlas	190万	1300万	Windows、macOS、Linux、Android、Web
SeeClick	27万	330万	Web、移动
Ferret-UI	12.4万	100万以下	移动

通过这些数据创新，OS-Atlas 在训练过程中得以广泛接触不同平台、不同应用的界面，这为它的分布外任务处理能力奠定了坚实基础。

🧠 模型架构：三模式的OS-Atlas

OS-Atlas 的模型架构分为三个不同的模式，每个模式都针对不同的研究需求：

🛠 Grounding Mode：精准定位

在这个模式下，OS-Atlas 负责根据用户指令预测屏幕上某个元素的坐标。它可以与**规划器（Planner）**模块集成，形成完整的智能体。例如，当用户指示智能体“点击屏幕右上角的设置按钮”时，OS-Atlas能够精准定位设置按钮的位置，并传递给规划器模块，最终实现点击操作。

🏃‍♂️ Action Mode：跨平台执行任务

Action Mode 是 OS-Atlas 的核心能力之一。在这个模式下，它可以独立运行，执行跨平台的任务。无论是在桌面、移动还是网页应用中，OS-Atlas都能在**零样本分布外（zero-shot OOD）**的场景下完成任务，例如自动填写表单、关闭窗口或是滚动页面。

🤖 Agent Mode：定制化智能体

当需要处理特定的复杂任务时，OS-Atlas可以在Agent Mode下通过监督微调进一步优化。这使得智能体能够胜任更具体的任务场景，例如为某个特定应用执行一系列操作。

🧪 实验与结果：六大基准的全面胜出

为了验证OS-Atlas的性能，我们在六个基准数据集上对其进行了全面评估，涵盖了桌面、移动和网页平台。结果表明，OS-Atlas在所有基准上都显著超过了之前的**SOTA（state-of-the-art）**模型。

📈 结果分析

在ScreenSpot基准测试中，OS-Atlas的定位精度远超其他模型。特别是在桌面平台上，OS-Atlas展现了卓越的性能，证明它在分布外任务中的强大泛化能力。

ScreenSpot 数据集上模型表现

模型准确率(%)

OS-Atlas 45.9
SeeClick 35.4
GPT-4o 18.7

此外，我们还进行了消融实验，验证了数据扩展和统一动作空间对模型性能的提升作用。实验表明，随着数据规模的扩大，OS-Atlas的性能也随之提升。这表明我们可以通过进一步扩展数据集，进一步提升模型的表现。

🧩 统一动作空间：减少训练冲突

在训练过程中，我们发现多任务微调时，不同数据源中的动作命名冲突会显著影响性能。为了避免这种冲突，我们设计了一个统一的动作空间，将不同平台上的相同操作统一命名为一致的动作类型。这就像给每个厨师发了一本统一的菜谱，无论是“煎”还是“炒”，只要按照统一标准操作就不会出错。

示例：统一动作空间中的基本动作

CLICK：点击指定位置
- 格式：CLICK [[x, y]]
TYPE：在指定位置输入文本
- 格式：TYPE [text]
SCROLL：滚动页面
- 格式：SCROLL [UP|DOWN|LEFT|RIGHT]

通过这一设计，OS-Atlas不仅减少了训练冲突，还提高了模型在不同平台间的知识共享能力。

🤖 OS-Atlas 的未来展望

作为一个开源的基础行动模型，OS-Atlas展示了它在跨平台GUI任务中的强大泛化能力。它的出现为未来的GUI智能体铺平了道路，使得开发者可以更轻松地打造具备强大行动能力的智能体。

我们相信，随着数据集的进一步扩展和模型的持续优化，OS-Atlas 将成为开源VLMs（Vision-Language Models）的重要替代品，推动更多商业智能体的开发。

📚 参考文献

Wu, Z., et al. (2024). “OS-Atlas: A Foundation Action Model for Generalist GUI Agents”. arXiv preprint arXiv:2410.23218v1.
Cheng, Y., et al. (2024). “ScreenSpot: Benchmarking GUI Grounding Tasks”. Proceedings of the 2024 Conference on Computer Vision and Pattern Recognition.
Hong, X., et al. (2024). “CogAgent: Towards General GUI Intelligence”. Transactions on Machine Learning Research.