【论文通读】Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS

最新推荐文章于 2025-05-01 22:59:55 发布

HERODING77

最新推荐文章于 2025-05-01 22:59:55 发布

阅读量1.4k

点赞数 13

分类专栏： AI_Agent LLM 文章标签：人工智能自然语言处理 MLLM LLM

本文链接：https://blog.csdn.net/HERODING23/article/details/142784537

版权

Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS

前言
ABSTRACT
Motivation
Solution
Method
- Data
- Model
Experiment
Conclusion

前言

SeeAct团队的后续工作，旨在通过大规模Grounding数据对开源模型进行 continuous-training以提升MLLM的Grouding能力。文章思路清晰，方法简单，介绍了很多数据处理和训练的trick，实验结果也表明本文方法显著提升了MLLM的Grounding能力。UGround是一个大的突破，但是后续还是有很多值得改进并做下去的地方。

Paper	https://github.com/OSU-NLP-Group/UGround/blob/gh-pages/static/papers/UGround_paper.pdf
Github	https://github.com/OSU-NLP-Group/UGround
Homepage	https://osu-nlp-group.github.io/UGround/

ABSTRACT

MLLM正在改变GUI智能体的能力，使其从仿真场景过渡到跨平台现实的应用程序。然而这些智能体都在grounding能力上受阻。当前流行的GUI智能体基于文本输入，比如HTML、A11y树，但是它们往往噪声多，信息量不全且开销大。本文提出SeeAct-V，是仅基于视觉构建GUI智能体的框架。它涉及一个MLLM规划下一步操作，以及一个基础模型定位元素的坐标。作者引入了UGround，是专门为GUI grounding开发的基础模型。该模型经过130万样本的训练，可以通过坐标提供开放式元素描述，并可跨不同操作系统。模型在六个benchmark上进行评估，涵盖了桌面，手机和网页等场景，结果表明UGround不仅优于现有的视觉模型，甚至超过依赖HTML等文本信息的方法。这些结果强调了grounding能力在GUI领域的实用性，表明其可以类似人类感知的精度来制导数字环境。