DataWhale AI|夏令营:构建多模态手机智能体Mobile-Agent

一、Mobile-Agent初识

  • Mobile-Agent是一种先进的自主多模态AI代理,它专为模拟人类在手机上的操作而设计。简单来说,Mobile-Agent能够像人类一样“看”懂手机屏幕上的内容,并据此执行各种任务,如点击图标、输入文本、滑动屏幕等。

  • 它结合了视觉感知、自然语言处理和智能规划等多种技术,使得它能够理解用户的指令,并根据当前屏幕的状态和上下文环境,自主规划并执行相应的操作。这种能力使得Mobile-Agent在自动化测试、智能助手、无障碍访问等领域具有广泛的应用前景。

  • 通过Mobile-Agent,用户可以更加便捷地完成手机上的各种操作,无需手动点击或输入,大大提高了使用效率。同时,Mobile-Agent还可以根据用户的习惯和需求,自动优化操作流程,提供更加个性化的服务。

  • 总之,Mobile-Agent是一种具有高度智能化和自主性的AI代理,它正在逐步改变我们与手机交互的方式,让我们的生活变得更加便捷和高效。图一

二、Mobile-Agent Demo的使用

1、领取大模型API

链接:阿里云百炼

(1)登陆注册阿里云

进入注册界面

登录界面

(2)开通模型,创建API-KEY

 进入主界面,点击去开通(开通前要先在阿里云实名认证),同意服务协议

图二

图三

点击右上角的个人中心的API-KEY,创建自己的KEY后,点击查看后,复制API-KEY,记得保存。

图四

2、下载Android Studio

网址链接: Android Studio下载

 (1)点击下载,同意协议

图五

 图六

(2)下载完成后,点击android-studio-2024.1.1.12-windows.exe文件开始安装,一直点击next和accept,直到finish完成,记得修改安装路径(默认在C盘),如若不然,小心C盘暴了。

图七

 (3)Android Studio启动配置

先启动刚安装好的Android Studio,选择Do not import settings,然后选择OK 

图八 

点击Cancel

图九

 先选择D'ont send,然后点击NEXT

图十

这里选择Custom,然后NEXT

 图十一

 建议修改Android Studio JDK的安装位置,然后NEXT

图十二 

 如图一样勾选,点击NEXT

图十三 

 点击Next

图十四

点击Accept,再点击finish

 图十五

 3、创建一个虚拟手机

 (1)创建新项目

图十六

选择Empty Activity,点击next

 图十七

 如图勾选API  27(“Oreo”;Android 8.1),修改存储路径(记住不要C盘),点击finish

图十八

 等待项目构建,有时会出现连接不上的错误,建议打开gradle-wapper.properties,将distributionUrl改成https://mirrors.aliyun.com/macports/distfiles/gradle/gradle-8.7-bin.zip

图十九

图二十

(2) 创建虚拟手机

点击create virtual Device

图二十一

 如图Phone选择Pixel 8,点击next

图二十二

 如图勾选点击Next,没有下载的话下载一下

图二十三

点击finish

图二十四

(3)启动虚拟手机

打开Seeting,按照截图配置

图二十五

启动虚拟机

 图二十六

(4)预先操作

将谷歌日历移动到桌面

4、安装Moblie-Agent框架

  (1)事先安装vscode和Anaconda

    (2) 创建一个新文件夹,在vscode中打开

 (3)下载Moblie-Agent Demo

打开vscode终端,输入以下代码

​git lfs install
git colne https://www.modelscope.cn/datasets/Datawhale/MoblieAgent_V2_Demo_qwenVL.git
cd MoblieAgent_V2_Demo_qwenVL

​

 创建一个虚拟环境

conda create -n moblieagent python=3.9.6 #创建虚拟环境,moblieagent是环境名(随意)
conda activate moblieagent  #激活虚拟环境

查看requirents.txt文件,根据自己的电脑环境输入以下代码,若觉得下载代码,可以在install后加上-i https://pypi.tuna.tsinghua.edu.cn/simplehttps://pypi.tuna.tsinghua.edu.cn/simplehttps://pypi.tuna.tsinghua.edu.cn/simple

pip install -r mac_requirements.txt #mac系统
pip install -r win_requirements.txt #win系统

(4)修改run.py 

修改adb_path(路径中是反斜杠  /)和qwen_api(记得之前保存的API-KEY吗,把它填进去)

 5、运行自己的第一个Demo

(1)选择run.py运行

 (2)效果(可以试着修改instruction,给出不同命令尝试得出不同的结果)

instruction:Read the Screen, tell me what day it is today. Then open Calendar.

总结

Mobile-Agent的结构是一个高度集成和智能化的系统,它结合了多模态大语言模型、文本检测模块和图标检测模块等多个关键组件。这些组件共同协作,使Mobile-Agent能够理解和执行复杂的用户指令,并在移动设备上准确地执行各种操作。通过迭代和自我规划的过程,Mobile-Agent能够不断提高任务执行的成功率和效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值