【论文通读】SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

最新推荐文章于 2025-04-21 09:23:44 发布

HERODING77

最新推荐文章于 2025-04-21 09:23:44 发布

阅读量1.4k

点赞数 31

分类专栏： AI_Agent 文章标签： Agent copilot 大语言模型 LLM GUI Agent

本文链接：https://blog.csdn.net/HERODING23/article/details/139899945

版权

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

前言
Abstract
Motivation
Method
ScreenSpot
Experiments
Conclusion

前言

一篇开创性的关于GUI智能体的工作，作者指出了当前GUI智能体面临的关键问题——GUI grounding能力不足，并基于此做了一系列工作，为提升GUI智能体性能指明了新的方向。

Paper	https://arxiv.org/pdf/2404.07972
github	https://github.com/njucckevin/SeeClick

Abstract

当前，GUI智能体与数字终端交互的方式通过提取的结构化信息，这些信息可能冗长或者无法访问。为此，本文提出SeeClick，只依赖于截图执行自动化任务。在之前的调研中，作者发现当前模型GUI grounding能力不足，为此，作者提出通过GUI预训练方式增强SeeClick该能力，并设计一种自动化管理GUI数据的方法。此外，作者还提出了ScreenSpot数据集，涵盖移动端、桌面和Web环境的真实benchmark。经过预训练后，SeeClick在ScreenSpot上展现了显著提升。此外，在在其他三个全面的benchmark上支持了作者的发现，即GUI grounding能力可以提升下游GUI智能体的性能。

Motivation

自动化桌面工具一直是个热门的话题，基于LLMs驱动的GUI智能体取得了一定的成功。但是仍面临一些问题：

结构化文本并不能总获取到。
结构化文本信息冗余，且忽视了关键的布局、图标等特征。
结构化文本种类繁杂，难以统一管理。

SeeClick如何解决这些问题？

避开结构化文本，从视觉角度构建GUI智能体，模仿人类的交互方式。但是这带来了新的问题：
当前的LVLMs grounding能力不足，无法根据指令定位到屏幕元素位置。
为此，SeeClick对LVLM进行了GUI grounding上的预训练，获得了在各种GUI环境中定位文本、图标等元素的能力。此外，为了填补GUI grounding评测领域的空白，作者提出ScreenSpot GUI grouding benchmark，涵盖IOS、Android、macOS、网页的600多个截图和1200条指令。最后，作者对SeeClick在mobile和web的benchmark上测试，取得了impressive的性能，这些实验一致支持了GUI grounding能力与GUI智能体性能的直接关联。