Datawhale AI夏令营从零上手MobileAgent task2笔记

TaLycent

已于 2024-08-31 13:23:43 修改

阅读量288

点赞数 3

文章标签：笔记

于 2024-08-31 13:19:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80097115/article/details/141714622

版权

前言

过去，阿里巴巴通义实验室推出的Mobile-agent-V1能够做到许多日常生活中的指令，但是当步骤略多（如需要跨平台操作），单智能体的V1便困难实现，于是推出V2，延续了一代的纯视觉方案，多智能体拥有更强大的复杂指令拆解能力、跨应用操作能力，更符合用户日常操作习惯及步骤。

Mobile-Agent-V2

Mobile-Agent-V2拥有三个智能体：Planning Agent、Decision Agent和Reflection Agent。

Planning Agent会根据指令进行规划操作。Decision Agent会根据当前界面图片做出决定后的进一步操作，输出为Thought（包含这步操作的内容）、Action（操作具体步骤）和Memory（存储未来可能用到的信息）。Reflection Stage会进行判断这一步步骤是否正确，再决定是否继续进行下一步操作。

图1.1 Mobile-Agent-V2原理图

“ANY"Mobile-Agent应用挑战赛

“ANY"Mobile-Agent应用挑战赛包含两个赛题。赛题一:基于Mobile-Agent框架设计并实现特定应用场景的手机端智能体基于Mobile-Agent框架设计并实现面向其他终端设备的智能体赛题二:

图1.2 赛题一解读图

图1.3 赛题二解读图

本次task侧重到了实际操作中，需要有自己的想法并且通过开源的V2将其实现。

于是待续（）。

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营从零上手MobileAgent task2笔记

过去，阿里巴巴通义实验室推出的Mobile-agent-V1能够做到许多日常生活中的指令，但是当步骤略多（如需要跨平台操作），单智能体的V1便困难实现，于是推出V2，延续了一代的纯视觉方案，多智能体拥有更强大的复杂指令拆解能力、跨应用操作能力，更符合用户日常操作习惯及步骤。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。