人工智能 - OmniParser V2：基于纯视觉的 GUI 代理,将任何 LLM 转变为计算机使用代理

最新推荐文章于 2025-03-12 18:08:08 发布

天机️灵韵

最新推荐文章于 2025-03-12 18:08:08 发布

阅读量468

点赞数

分类专栏：具身智能文章标签：人工智能 Agent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fx_demon/article/details/145703357

版权

具身智能专栏收录该内容

59 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

OmniParser：基于纯视觉的 GUI 代理的屏幕解析工具

微软日前发布视觉Agent解析框架OmniParser最新版本V2.0，可将OpenAI（4o/o1/o3-mini）、DeepSeek（R1）、Qwen（2.5VL）、Anthropic（Sonnet）等大模型，转化为“计算机使用智能体”（Computer Use Agent）。相比前代版本，OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言，V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练，并通过缩小图标描述模型的输入图像尺寸，推理延迟较前代降低60%。

图形用户界面（GUI）自动化要求代理能够理解用户屏幕并与之交互。但是，使用通用 LLM 模型作为 GUI 代理面临几个挑战：1）可靠地识别用户界面中的可交互图标，以及 2）理解屏幕截图中各种元素的语义，并将预期作与屏幕上的相应区域准确关联。OmniParser 通过将像素空间的 UI 屏幕截图“标记化”为屏幕截图中可由 LLM 解释的结构化元素来缩小这一差距。这使 LLM 能够在给定一组已解析的可交互元素的情况下执行基于检索的下一个作预测。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天机️灵韵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。