🌍 引言:从钢铁侠到桌面上的智能体
还记得《钢铁侠》里的JARVIS吗?那个能帮你安排日常生活、打理事务的全能助手?时至今日,这种幻想正在成为现实。近年来,随着**大语言模型(LLM)**的广泛应用,数字智能体的概念逐渐从科幻走向了现实。我们不再需要手动点击鼠标、打字输入命令,未来的我们只需对智能体说出指令,它便能帮我们完成各种任务。
然而,当前的智能体大多依赖于对文本环境的描述来做出决策,比如HTML结构或可访问性树。这种方式不仅冗长、杂乱,还很难在实际操作中获取。而通过图形用户界面(GUI)直接与操作系统交互的智能体,提供了更灵活、更信息完备的手段。问题在于,现有的开源模型在GUI定位和分布外(OOD)任务上表现不佳,尤其是在面对从未见过的界面时,它们往往“手足无措”。
于是,我们提出了 OS-Atlas,一个专为通用GUI智能体开发的基础行动模型,旨在解决这些问题。OS-Atlas 不仅能够灵活应对不同的操作系统和界面,还通过开源的跨平台数据集和创新的模型训练方法,在GUI定位和OOD任务中展现出显著的性能提升。我们希望,OS-Atlas 能成为未来GUI智能体开发的基石。
🖼 图形化操作的挑战与机遇
🔍 GUI定位与分布外任务
GUI智能体的核心任务是将自然语言指令转化为可执行的GUI操作,比如根据用户的指示在屏幕上某个位置点击。然而,现有的开源模型在这个过程中常常遇到困难。主要原因有两个:
-
模型预训练缺乏多平台GUI截图数据。虽然一些早期的研究已经开始针对网页或移动应用收集截图数据,但缺乏一个跨平台的、涵盖多种操作系统和应用的数据集。这就像你学会了开车,却从未见过摩托车,面对新设备时自然会“懵圈”。
-
数据集异构性和动作命名冲突。不同平台上,类似的操作常常被赋予不同的名称。比如,移动设备上的“轻触(tap)”和桌面端的“点击(click)”其实是一样的动作,但由于命名的差异,模型在训练时容易混淆。这就好比你在学做菜时,发现不同食谱里的“煎”和“炒”其实是一回事,但它们的名字却让你无所适从。
为了应对这些挑战,我们开发了 OS-Atlas,一个跨平台、开源的GUI基础行动模型。其设计初衷是让智能体能够在遇到从未见过的界面时,也能灵活应对,完成任务。
💾 数据创新:跨平台的GUI数据集
🧩 数据集的挑战与突破
在过去的研究中,GUI智能体的数据集往往只集中在单一平台上,比如网页或移动应用。为了打破这种局限性,我们开发了一套多平台GUI定位数据合成工具包,可以自动生成来自Windows、macOS、Linux、Android等平台的GUI数据。这就好比我们为智能体提供了多个“驾驶模拟器”,让它们不仅能在公路上开车,还能在山路上、赛道上甚至水中应对自如。
利用这个工具包,我们创建并开源了迄今为止最大的跨平台GUI定位语料库,包含超过230万张截图和1300万个GUI元素。更重要的是,我们还对现有的一些基准数据集进行了修正,解决了其中11.32%的错误标注问题,并发布了更新版的ScreenSpot-V2基准数据集。
📊 数据集关键统计
数据集名称 | 截图数量 | 元素数量 | 平台 |
---|---|---|---|
OS-Atlas | 190万 | 1300万 | Windows、macOS、Linux、Android、Web |
SeeClick | 27万 | 330万 | Web、移动 |
Ferret-UI | 12.4万 | 100万以下 | 移动 |
通过这些数据创新,OS-Atlas 在训练过程中得以广泛接触不同平台、不同应用的界面,这为它的分布外任务处理能力奠定了坚实基础。
🧠 模型架构:三模式的OS-Atlas
OS-Atlas 的模型架构分为三个不同的模式,每个模式都针对不同的研究需求:
🛠 Grounding Mode:精准定位
在这个模式下,OS-Atlas 负责根据用户指令预测屏幕上某个元素的坐标。它可以与**规划器(Planner)**模块集成,形成完整的智能体。例如,当用户指示智能体“点击屏幕右上角的设置按钮”时,OS-Atlas能够精准定位设置按钮的位置,并传递给规划器模块,最终实现点击操作。
🏃♂️ Action Mode:跨平台执行任务
Action Mode 是 OS-Atlas 的核心能力之一。在这个模式下,它可以独立运行,执行跨平台的任务。无论是在桌面、移动还是网页应用中,OS-Atlas都能在**零样本分布外(zero-shot OOD)**的场景下完成任务,例如自动填写表单、关闭窗口或是滚动页面。
🤖 Agent Mode:定制化智能体
当需要处理特定的复杂任务时,OS-Atlas可以在Agent Mode下通过监督微调进一步优化。这使得智能体能够胜任更具体的任务场景,例如为某个特定应用执行一系列操作。
🧪 实验与结果:六大基准的全面胜出
为了验证OS-Atlas的性能,我们在六个基准数据集上对其进行了全面评估,涵盖了桌面、移动和网页平台。结果表明,OS-Atlas在所有基准上都显著超过了之前的**SOTA(state-of-the-art)**模型。
📈 结果分析
在ScreenSpot基准测试中,OS-Atlas的定位精度远超其他模型。特别是在桌面平台上,OS-Atlas展现了卓越的性能,证明它在分布外任务中的强大泛化能力。
ScreenSpot 数据集上模型表现
模型 准确率(%)
OS-Atlas 45.9
SeeClick 35.4
GPT-4o 18.7
此外,我们还进行了消融实验,验证了数据扩展和统一动作空间对模型性能的提升作用。实验表明,随着数据规模的扩大,OS-Atlas的性能也随之提升。这表明我们可以通过进一步扩展数据集,进一步提升模型的表现。
🧩 统一动作空间:减少训练冲突
在训练过程中,我们发现多任务微调时,不同数据源中的动作命名冲突会显著影响性能。为了避免这种冲突,我们设计了一个统一的动作空间,将不同平台上的相同操作统一命名为一致的动作类型。这就像给每个厨师发了一本统一的菜谱,无论是“煎”还是“炒”,只要按照统一标准操作就不会出错。
示例:统一动作空间中的基本动作
- CLICK:点击指定位置
- 格式:
CLICK [[x, y]]
- 格式:
- TYPE:在指定位置输入文本
- 格式:
TYPE [text]
- 格式:
- SCROLL:滚动页面
- 格式:
SCROLL [UP|DOWN|LEFT|RIGHT]
- 格式:
通过这一设计,OS-Atlas不仅减少了训练冲突,还提高了模型在不同平台间的知识共享能力。
🤖 OS-Atlas 的未来展望
作为一个开源的基础行动模型,OS-Atlas展示了它在跨平台GUI任务中的强大泛化能力。它的出现为未来的GUI智能体铺平了道路,使得开发者可以更轻松地打造具备强大行动能力的智能体。
我们相信,随着数据集的进一步扩展和模型的持续优化,OS-Atlas 将成为开源VLMs(Vision-Language Models)的重要替代品,推动更多商业智能体的开发。
📚 参考文献
- Wu, Z., et al. (2024). “OS-Atlas: A Foundation Action Model for Generalist GUI Agents”. arXiv preprint arXiv:2410.23218v1.
- Cheng, Y., et al. (2024). “ScreenSpot: Benchmarking GUI Grounding Tasks”. Proceedings of the 2024 Conference on Computer Vision and Pattern Recognition.
- Hong, X., et al. (2024). “CogAgent: Towards General GUI Intelligence”. Transactions on Machine Learning Research.