人工智能 - OmniParser V2:基于纯视觉的 GUI 代理,将任何 LLM 转变为计算机使用代理

OmniParser:基于纯视觉的 GUI 代理的屏幕解析工具

微软日前发布视觉Agent解析框架OmniParser最新版本V2.0,可将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。相比前代版本,OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并通过缩小图标描述模型的输入图像尺寸,推理延迟较前代降低60%。

图形用户界面 (GUI) 自动化要求代理能够理解用户屏幕并与之交互。但是,使用通用 LLM 模型作为 GUI 代理面临几个挑战:1) 可靠地识别用户界面中的可交互图标,以及 2) 理解屏幕截图中各种元素的语义,并将预期作与屏幕上的相应区域准确关联。OmniParser 通过将像素空间的 UI 屏幕截图“标记化”为屏幕截图中可由 LLM 解释的结构化元素来缩小这一差距。这使 LLM 能够在给定一组已解析的可交互元素的情况下执行基于检索的下一个作预测。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天机️灵韵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值