GPT-4V-Act ：一个多模态AI助手，能够像人类一样模拟通过鼠标和键盘进行网页浏览。

最新推荐文章于 2024-07-28 15:37:27 发布

大鹏学开发

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量882

点赞数

文章标签：人工智能计算机外设

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shmily77love/article/details/134488851

版权

内容来源：@xiaohuggg

GPT-4V-Act ：一个多模态AI助手，能够像人类一样模拟通过鼠标和键盘进行网页浏览。

它可以模拟人类浏览网页时的行为，如点击链接、填写表单、滚动页面等。

它通过视觉理解技术识别网页上的元素，就像人眼一样，能够“看到”按钮、文本框、图片等，并理解它们的功能和用途。

这个工具的目的是让AI能够自动完成一些需要人工操作的任务，从而提高工作效率，帮助人们更容易地使用各种网页界面。

工作原理：

GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力，该工具为每个可交互的UI元素分配一个唯一的数字ID。

通过结合任务和截图作为输入，GPT-4V-Act可以推断出完成任务所需的后续动作。它能够检查UI截图并提供精确的像素坐标，以指导鼠标/键盘执行特定任务。

目前，这个演示还很基础，它利用网页抓取技术将ChatGPT Plus变形为一个非官方的GPT-4V API后端。尽管目前的测试有限，但该代理已经显示出了在Reddit上发布帖子、搜索产品和启动结账过程的能力。

主要特点：

1、视觉处理：能够处理视觉信息，但支持程度有限。

2、自动标记：使用JS DOM自动标记器为UI元素分配数字ID，支持COCO数据格式的导出。

3、鼠标和键盘操作：能够执行点击和输入字符操作。

4、特殊键码输入：目前还不支持输入特殊键码（如回车、页面上移、页面下移）。

5、其他功能：滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。

GitHub：httpshttps://github.com/ddupont808/GPT-4V-Act

视觉定位：https://https://som-gpt4v.github.io/
原帖：httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/

大鹏学开发

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GPT-4V-Act ：一个多模态AI助手，能够像人类一样模拟通过鼠标和键盘进行网页浏览。

原帖：httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力，该工具为每个可交互的UI元素分配一个唯一的数字ID。它通过视觉理解技术识别网页上的元素，就像人眼一样，能够“看到”按钮、文本框、图片等，并理解它们的功能和用途。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。