Datawhale AI夏令营从零上手MobileAgent task2笔记

前言

        过去,阿里巴巴通义实验室推出的Mobile-agent-V1能够做到许多日常生活中的指令,但是当步骤略多(如需要跨平台操作),单智能体的V1便困难实现,于是推出V2,延续了一代的纯视觉方案,多智能体拥有更强大的复杂指令拆解能力、跨应用操作能力,更符合用户日常操作习惯及步骤。

Mobile-Agent-V2

        Mobile-Agent-V2拥有三个智能体:Planning Agent、Decision Agent和Reflection Agent。

        Planning Agent会根据指令进行规划操作。Decision Agent会根据当前界面图片做出决定后的进一步操作,输出为Thought(包含这步操作的内容)、Action(操作具体步骤)和Memory(存储未来可能用到的信息)。Reflection Stage会进行判断这一步步骤是否正确,再决定是否继续进行下一步操作。

图1.1 Mobile-Agent-V2原理图
 

“ANY"Mobile-Agent应用挑战赛

        “ANY"Mobile-Agent应用挑战赛包含两个赛题。赛题一:基于Mobile-Agent框架设计并实现特定应用场景的手机端智能体基于Mobile-Agent框架设计并实现面向其他终端设备的智能体赛题二:

图1.2 赛题一解读图

图1.3 赛题二解读图

        本次task侧重到了实际操作中,需要有自己的想法并且通过开源的V2将其实现。

        于是待续()。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值