前言
过去,阿里巴巴通义实验室推出的Mobile-agent-V1能够做到许多日常生活中的指令,但是当步骤略多(如需要跨平台操作),单智能体的V1便困难实现,于是推出V2,延续了一代的纯视觉方案,多智能体拥有更强大的复杂指令拆解能力、跨应用操作能力,更符合用户日常操作习惯及步骤。
Mobile-Agent-V2
Mobile-Agent-V2拥有三个智能体:Planning Agent、Decision Agent和Reflection Agent。
Planning Agent会根据指令进行规划操作。Decision Agent会根据当前界面图片做出决定后的进一步操作,输出为Thought(包含这步操作的内容)、Action(操作具体步骤)和Memory(存储未来可能用到的信息)。Reflection Stage会进行判断这一步步骤是否正确,再决定是否继续进行下一步操作。
图1.1 Mobile-Agent-V2原理图
“ANY"Mobile-Agent应用挑战赛
“ANY"Mobile-Agent应用挑战赛包含两个赛题。赛题一:基于Mobile-Agent框架设计并实现特定应用场景的手机端智能体基于Mobile-Agent框架设计并实现面向其他终端设备的智能体赛题二:
图1.2 赛题一解读图
图1.3 赛题二解读图
本次task侧重到了实际操作中,需要有自己的想法并且通过开源的V2将其实现。
于是待续()。