2024年第一个工作日,带来腾讯开源多模式代理AppAgent,以后APP完全自动化或可实现,结合AI大模型应用,能做的事情更多,完全开放想象
【腾讯云AI绘画】AI绘画专栏之全网第一套系统的AI绘画课 零基础学会AI绘画-腾讯云开发者社区-腾讯云 (tencent.com)
AI工具大合集👇👇
https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH
项目地址:https://appagent-official.github.io/
论文地址:[2312.13771] AppAgent: Multimodal Agents as Smartphone Users (arxiv.org)
AppAgent功能演示。AppAgent 是一种高级多模式代理 由大型语言模型提供支持,能够掌握和利用任何应用程序来 执行复杂的任务。它通过直观的点击和滑动手势与应用程序进行交互, 模仿类似人类的动作。
大型语言模型 (LLM) 的最新进展导致了能够执行复杂任务的智能代理的创建。本文介绍了一种基于LLM的新型多模态代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的操作空间操作智能手机应用程序,模仿类似人类的交互,例如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。我们代理功能的核心是其创新的学习方法。智能体通过自主探索或观察人类演示来学习导航和使用新应用程序。此过程会生成一个知识库,代理会引用该知识库来跨不同应用程序执行复杂任务。为了证明我们代理的实用性,我们在 10 个不同的应用程序中对 50 多个任务进行了广泛的测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们的代理在处理各种高级任务方面的熟练程度。
2023.12.26:AppAgent 支持 Andriod 模拟器!即使您没有 Android 设备,也可以尝试一下。
2023.12.21:🔥🔥开源 git 仓库,包括实现 AppAgent 的详细配置步骤!
应用代理分两个阶段运行,分别称为探索阶段和部署阶段。在第一个 阶段,App Agent 会观察不同应用用户界面中的交互。用足够的 观察,App Agent 变得熟练使用应用程序。这些知识被精心编译成一个 公文。完成此学习阶段后,代理即可开始操作。在第二阶段,App 代理能够跨任何受支持的应用程序处理高级任务。这种有条不紊的方法 使 App Agent 能够跨不同应用程序高效完成各种复杂任务。
通过观察各种应用程序的图形用户界面的变化,App Agent 了解它们的功能和 操作逻辑。这种对 GUI 元素的深刻理解对于其与 应用程序。
遇到新的用户界面时,App Agent 会参考文档中的知识库来了解 接口的用途和用法。然后,它制定完成给定任务的最佳方式,使 一步一步的正确操作。
AppAgent 需要由多模态模型提供支持,该模型可以接收文本和视觉输入。在我们的实验中 ,我们以模型为模型来决定如何采取行动在智能手机上完成任务。gpt-4-vision-preview