Mobile-Agent 入门学习系列笔记 Task1:Mobile-Agent demo #AI夏令营 #Mobile Agent #Datawhale 夏令营 第五期

写在最前

本系列笔记用于记录mobile-agent学习内容,会逐步进行更新。

Mobile-Agent:通过截图分析实现移动应用操作自动化

  • 自主多模态代理 "Mobile-Agent " :提议的多模态代理将视觉和语言整合在一起,实现移动应用操作自动化
  • 视觉识别技术的应用: 可根据屏幕截图直接进行操作定位,减少对用户界面的依赖、
  • 使用 "Mobile-Eval "基准进行性能评估:使用 新提出的基准证明了较高的任务完成率和操作准确性。

关于 Mobile-Agent

Mobile-Agent 将文本检测模块和图标检测模块与最新的大规模语言模型 (MLLM) GPT-4V 结合在一起,从而大大提高了移动设备上基于指令的操作的准确性。Mobile-Agent 的整体工作流程如下图所示。
在这里插入图片描述

针对核心 GPT-4V 缺乏在移动设备实际运行时精确定位操作发生位置的能力,Mobile-Agent 引入了外部工具来精确定位文本和图标的位置。

当需要确定文本的确切位置时,如需要点击屏幕上的特定文本时,就需要使用 OCR(光学字符识别)工具来查找文本的位置。这一过程因检测到无文本、检测到一个文本或检测到多个文本而有所不同。

当需要准确定位图标时,例如点击图标时,图标检测工具和 CLIP 可用于识别图标的准确位置。首先要求代理指定要点击的图标的属性,然后使用接地 DINO 和 "图标 "提示来识别所有图标。最后,使用 CLIP 计算所有检测到的图标与点击区域描述之间的相似度,并选择相似度最高的区域进行点击。

为了更好地解释移动代理在屏幕上执行的操作,还定义了以下八种操作。

  • 打开应用程序(App):打开桌面页面上的特定应用程序。

  • 点击文本(Text):点击屏幕上标有 "文本 "的区域。

  • 点击图标(图标,位置):
    点击 "图标 "描述的 "位置 "区域。 图标 "提供了对点击位置的描述,包括其属性(颜色、图标形状等)。 位置
    "可从顶部、底部、左侧、右侧或中央选择一个或两个选项,以减少出错的可能性。

  • 类型(文本):在当前输入框中输入 “文本”。

  • 上下翻页:上下滚动当前页面。

  • 返回:回到最后一页。

  • 退出:从当前页面直接返回桌面。

  • 停止:指令完成后,整个进程终止。

移动代理会反复完成每个操作步骤。在迭代开始之前,用户必须输入指令。根据这些指令,整个过程都会生成提示。每次迭代开始时,都会截取当前手机屏幕的屏幕截图并输入代理。代理处理提示、操作历史和当前屏幕截图,并输出下一步操作。如果代理的输出结果是流程结束,则迭代停止。移动代理使用操作历史记录来跟踪当前任务的进度,并根据提示在当前屏幕截图上生成操作,从而实现迭代、自我规划流程。

Mobile-Agent Demo 运行

Step1. 安装 Android Studio

Step2. 新建一个虚拟手机

  1. 新建项目
  2. 创建虚拟手机
  3. 启动虚拟手机
  4. 将谷歌日历移动至桌面
    在这里插入图片描述

Step3. 安装Mobile-Agent 框架

  1. 新建一个terminal

  2. 下载Mobile-Agent 相关 demo

  3. 通过requirement文件安装Mobile-Agent所需的各种依赖包。

  4. 将run.py中的adb_path 和 qwen_api 变量进行修改(安装androidsdk时自定义了sdk安装路径,那么adb_path需要去对应的文件夹中寻找)

Step4. 运行Mobile-Agent示例代码

使用VSCode打开Mobile-Agent项目文件夹,终端输入python run.py,运行agent
在这里插入图片描述


关于Mobile-Agent相关理论内容参考:
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
written by Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
(Submitted on 29 Jan 2024)
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

  • 21
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值