【论文通读】Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS

Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS

前言

SeeAct团队的后续工作,旨在通过大规模Grounding数据对开源模型进行 continuous-training以提升MLLM的Grouding能力。文章思路清晰,方法简单,介绍了很多数据处理和训练的trick,实验结果也表明本文方法显著提升了MLLM的Grounding能力。UGround是一个大的突破,但是后续还是有很多值得改进并做下去的地方。
Paper https://github.com/OSU-NLP-Group/UGround/blob/gh-pages/static/papers/UGround_paper.pdf
Github https://github.com/OSU-NLP-Group/UGround
Homepage https://osu-nlp-group.github.io/UGround/

ABSTRACT

MLLM正在改变GUI智能体的能力,使其从仿真场景过渡到跨平台现实的应用程序。然而这些智能体都在grounding能力上受阻。当前流行的GUI智能体基于文本输入,比如HTML、A11y树,但是它们往往噪声多,信息量不全且开销大。本文提出SeeAct-V,是仅基于视觉构建GUI智能体的框架。它涉及一个MLLM规划下一步操作,以及一个基础模型定位元素的坐标。作者引入了UGround,是专门为GUI grounding开发的基础模型。该模型经过130万样本的训练,可以通过坐标提供开放式元素描述,并可跨不同操作系统。模型在六个benchmark上进行评估,涵盖了桌面,手机和网页等场景,结果表明UGround不仅优于现有的视觉模型,甚至超过依赖HTML等文本信息的方法。这些结果强调了grounding能力在GUI领域的实用性,表明其可以类似人类感知的精度来制导数字环境。

Motivation

当前,GUI智能体与LLM一起发展迅速。一方面,LLM的理解能力让GUI智能体与现实环境交互成为可能,另一方面,GUI智能体已经成为LLM重要的测试平台,为很多商业自动化行为提供了途径。

理论上,如果GUI智能体能够:

  • 视觉感知GUI。
  • 实施键盘操作或者鼠标、触控屏像素级操作。

那么就能像人一样与数字世界交互。然而,现有的GUI智能体只能依赖文本信息(HTML,a11y树),MLLM的最新进展让基于视觉感知变得可行,但是仍然需要文本信息辅助(视觉能力不足)。文本信息有如下不足:

  • 噪声多且信息不完整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HERODING77

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值