Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS
前言
SeeAct团队的后续工作,旨在通过大规模Grounding数据对开源模型进行 continuous-training以提升MLLM的Grouding能力。文章思路清晰,方法简单,介绍了很多数据处理和训练的trick,实验结果也表明本文方法显著提升了MLLM的Grounding能力。UGround是一个大的突破,但是后续还是有很多值得改进并做下去的地方。Paper | https://github.com/OSU-NLP-Group/UGround/blob/gh-pages/static/papers/UGround_paper.pdf |
---|---|
Github | https://github.com/OSU-NLP-Group/UGround |
Homepage | https://osu-nlp-group.github.io/UGround/ |
ABSTRACT
MLLM正在改变GUI智能体的能力,使其从仿真场景过渡到跨平台现实的应用程序。然而这些智能体都在grounding能力上受阻。当前流行的GUI智能体基于文本输入,比如HTML、A11y树,但是它们往往噪声多,信息量不全且开销大。本文提出SeeAct-V,是仅基于视觉构建GUI智能体的框架。它涉及一个MLLM规划下一步操作,以及一个基础模型定位元素的坐标。作者引入了UGround,是专门为GUI grounding开发的基础模型。该模型经过130万样本的训练,可以通过坐标提供开放式元素描述,并可跨不同操作系统。模型在六个benchmark上进行评估,涵盖了桌面,手机和网页等场景,结果表明UGround不仅优于现有的视觉模型,甚至超过依赖HTML等文本信息的方法。这些结果强调了grounding能力在GUI领域的实用性,表明其可以类似人类感知的精度来制导数字环境。
Motivation
当前,GUI智能体与LLM一起发展迅速。一方面,LLM的理解能力让GUI智能体与现实环境交互成为可能,另一方面,GUI智能体已经成为LLM重要的测试平台,为很多商业自动化行为提供了途径。
理论上,如果GUI智能体能够:
- 视觉感知GUI。
- 实施键盘操作或者鼠标、触控屏像素级操作。
那么就能像人一样与数字世界交互。然而,现有的GUI智能体只能依赖文本信息(HTML,a11y树),MLLM的最新进展让基于视觉感知变得可行,但是仍然需要文本信息辅助(视觉能力不足)。文本信息有如下不足:
- 噪声多且信息不完整。