UI Agents（智能体）技术综述

最新推荐文章于 2025-04-02 12:20:04 发布

程序猿李巡天

最新推荐文章于 2025-04-02 12:20:04 发布

阅读量1.9k

点赞数 30

文章标签： ui 金融人工智能音视频语言模型自然语言处理

本文链接：https://blog.csdn.net/m0_59235945/article/details/144222760

版权

一、UI Agents技术概述

UI Agents 技术利用大模型技术（VLM / LLM）实现智能体对手机或电脑的自动操作，模拟人类行为完成指定任务，涵盖 Web GUI 和 Mobile GUI 等多种应用场景，甚至与 Embodied Navigation 中的 Vision Language Navigation（VLN）任务也有相似之处。

UI Agents的定义与示例

UI Agents 的核心在于智能体能够模拟人类操作，自动执行任务。例如，当我们下达“微信给小明发送一条消息：‘吃了吗？’”这样的指令时，UI Agents 会像人类一样理解任务，然后在手机或电脑上执行一系列操作，如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作，其本质是一个 Partially Observable Markov Decision Process (POMDP) 问题，智能体无法观察到所有的状态信息，需要根据当前可观察到的状态（如UI截图和对应的XML）做出决策，输出如“CLICK(100, 200)”这样的操作指令，其中“CLICK”为动作名称，“(100, 200)”为动作参数，即点击的坐标。

UI Agents面临的独特挑战

尽管 UI Agents 前景广阔，但在实际应用中面临诸多挑战。首先是序列决策问题，其收益具有延迟性，这意味着智能体在执行任务过程中，可能无法立即知晓当前操作的有效性，直到任务完成才能确定最终收益。其次，网站和应用程序的频繁更新导致在线观测结果与离线数据不一致，给智能体的学习和决策带来困难。此外，各种不可预测的干扰项，如弹出广告、登录请求以及搜索结果的随机顺序等，都会影响智能体的正常操作。技术方面，网页加载不完整或对某些网站的临时访问受限等问题也时有发生，这些都对 UI Agents 的性能和稳定性提出了更高要求。

二、UI Agents技术路线

实现 UI Agents 主要涉及感知（Perception）、规划/决策（Planning/Decision）等关键环节，技术路线多样，包括基于Closed LLM、VLM等不同方式，各有优劣。

感知（Perception）技术

在 Perception 方法中，智能体通过截屏XML、截屏图片、OCR、Summarization、Icon Detection & Captioning 等技术，将 UI 截图转换为结构化信息，以便进行后续的规划和决策。

Closed LLM (Training-free)

这种方法先利用感知技术将当前状态转换为文本，再借助 LLM 进行推理和决策。以 AutoDroid（清华）和 AWM（CMU & MIT）为代表，其优化方向主要集中在 Memory Construction & Usage、Prompt 以及Trajectory Planning 等方面。在这一过程中，感知能力至关重要，它决定了如何用文本准确表达当前状态，而LLM的推理能力则直接影响决策的准确性。

Memory的构建与使用（以AWM为例）

AWM 从已有路径中抽取公共的抽象子路径（workflow），每个 workflow 包含 workflow 描述（自然语言描述功能）和具体路径（节点包含当前环境描述、推理说明和动作等信息）。Memory 使用时，通过向量检索得到 top-k 个结果并加入 prompt，以增强决策依据。

VLM - driven UI Agents

VLM-driven UI Agents 的 Policy Model 基于 VLM 实现，VLM 同时完成感知、规划和决策任务。对 VLM 的独特要求包括UI任务执行和推理能力、全局理解能力和局部细节理解能力。

VLM 在 UI Agents 中承担着感知、规划和决策的多重任务，对其有独特要求。它需要具备 UI 任务执行和推理能力，包括全局理解能力（如细粒度 OCR、UI 界面理解）和局部细节理解能力（如元素定位、指称能力），以应对UI操作中的各种需求。

Perception + Closed VLM

• SoM (Set-of-Mark Prompting)：Microsoft 提出的 SoM 利用检测模型将图像分区并添加标记，辅助 VLM 进行推理决策，如在 GPT-4V 中通过这种方式提高视觉定位能力。
• Closed VLM代表性工作：包括 MM-Navigator（Microsoft）、AppAgent（Tencent）、Mobile-Agent-v2（Alibaba）、OmniParser（Microsoft）等。以 OmniParser 为例，它融合多个感知模块结果（如微调的可交互图标检测模型、图标描述模型和 OCR 模块）后输入到 GPT-4V 中，生成类似 DOM 的 UI 界面结构化表示形式，提升对 UI 的理解和操作能力。

Open VLM (Training-based)

Open VLM技术路线中，VLM通过训练数据精调，不改变其架构。代表性工作包括 CogAgent、Ferret-UI 和 SeeClick，它们各自采用了不同的技术和方法来提升VLM的效果。

针对GUI任务设计特有VLM结构：

CogAgent（Zhipu）：在 CogVLM 基础上新增小型高分辨率图像编码器（0.3B参数），支持超高分辨率图像输入，降低处理高分辨率图像的计算成本，增强与 GUI 相关的问答和 OCR 任务能力。

Ferret-UI（Apple）：基于 Ferret VLM 训练，通过特定的 anyRes 方法（根据屏幕纵横比切分原始图片为子图并单独编码）执行精确指称和定位任务，其训练涉及多种任务，如指称、定位、问答、Summarization和功能判断等。

使用GUI任务数据精调通用VLM：

SeeClick（Shanghai AI Lab）：分两阶段训练，预训练阶段利用GUI grounding基础预训练策略增强通用VLM（Qwen - VL）的grounding能力，包括预测坐标、基于坐标或边界框预测文本、UI总结和通用视觉语言指令跟随等任务；微调阶段将指令、当前界面截图和历史动作作为输入，预测下一步操作。

MobileVLM（XiaoMi）：基于Qwen - VL - 9B利用UI数据进一步训练，构建了包含大量UI截图、XML和动作的Mobile3M数据集，通过该数据集开展元素定位、动作预测、元素列表生成和动作空间生成等任务，并采用三阶段训练（难度渐进式增加）提升模型对单个UI页面内部、两个页面之间关系以及端到端任务完成能力。

Pipeline: Planning + Precise Grounding

此方法将规划和精确定位分离，使用 VLM 进行规划，输出动作的文本描述，再用其他模型精确定位动作信息（如坐标、输入文本等）。代表性工作如 ClickAgent（Samsung），其决策模块使用InternVL2.0-76B 进行推理、动作规划和反思，UI Location Model 对“CLICK”动作使用 TinyClick 产生精确点击坐标；LiMAC（Huawei）由 AcT（预测动作类型和参数）和 VLM（生成 text 字符串）组成 pipeline 执行 UI 任务；AutoGLM（Zhipu）基于“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”，将任务规划与动作执行解耦，规划器给出动作文本描述，执行器给出具体参数。

三、UI Agents 的高级优化技术

为了进一步提升 UI Agents 的性能，研究人员探索了多种高级优化技术，从不同方面改进模型。

这些优化技术涵盖多个方面，包括增强 Memory/Knowledge，使用更好的 Base VLM，获取更多更好的数据（如通过搜索方法如 MCTS 进行数据探索和利用），改进训练方法（如确定训练任务和顺序，采用 RL（DPO）提升推理和规划能力）以及优化推理方法（如 CoT、ReAct、多智能体协作、树搜索等）。

代表性工作

Agent Q（MultiOn & Stanford）

利用 MCTS + Step-DPO + PlanReAct 训练 LLM/VLM 模型。训练时，MCTS 自动探索和执行动作获取正负样本数据，Selection 阶段使用过程奖励模型预测节点潜在收益，Expansion 阶段基于 Critic Model 选择 top-K 动作扩展，Simulation 阶段用 GPT-4V 判断任务完成情况；然后使用 Step-DPO 精调模型以提升推理和规划能力。

Inference-time Tree Search（CMU）

在推理时采用 best-first 树搜索提升效果。基于 LLM/VLM 的 Policy 函数选择最优 top-b 个 actions，Value 函数（使用 GPT-4o 并采用 self-consistency 机制取20次调用平均得分）判断当前状态期望收益，树搜索优先探索Value值大的节点。

Mobile-Agent-v2（Alibaba）

引入多智能体（规划、决策、反思智能体）和记忆单元协同工作。记忆单元存储任务相关焦点内容并随任务更新；规划智能体生成任务进度辅助决策；决策智能体根据任务进度、屏幕状态和反思结果生成操作并更新记忆单元；反思智能体观察操作前后屏幕状态，判断操作是否符合预期，若错误则回退页面，若无效则维持状态。

四、UI Agents的评测方法

准确评测 UI Agents 的性能对于其发展至关重要，目前主要采用人工评测和自动评测两种方式，同时也有专门的测试平台。

评测方式与指标

人工评测：精度高，但耗时且成本高。
自动评测：速度快、成本较低，但精度相对不高。
评测指标：

Step-wise：包括动作准确率（Act.Acc，所有动作成功率平均分，点击准确率反映定位能力，类型匹配率反映动作名称准确率）。
Episode-wise/Trajectory-wise：涵盖任务成功率和任务完成效率（完成任务平均步数）。
Path-wise：包含路径匹配度、路径节点最高收益值（从节点到达任务完成的概率）和Essential States（任务完成必要状态或关键节点）。

Testbed for Task Automation：为UI任务自动化提供了专门的测试环境，有助于更全面准确地评估UI Agents的性能。

五、UI Agents技术的回顾与总结

综合来看，不同 UI Agents 技术路线在效果、资源需求和风险等方面存在差异。

Closed LLM：公开工作中的效果一般（⭐⭐），算力和数据需求很低，但后续效果优化难度大，推理耗时一般，隐私安全低，达成效果的风险较高。
Closed VLM：效果相对较好（⭐⭐⭐），算力需求较低，数据需求低，后续优化较难，推理慢，隐私安全低，风险一般。
新架构VLM：效果上限高（⭐⭐⭐⭐），但算力和数据需求极高（百卡量级和百M量级），优化有点难，推理耗时一般，隐私安全高，工作量大导致达成效果的风险较高。
通用VLM微调：效果较好（⭐⭐⭐⭐），算力和数据需求一般（8～16卡量级和M量级），后续优化难度一般，推理耗时一般，隐私安全高，风险一般。

在选择UI Agents技术路线时，需要综合考虑效果上限、训练资源需求和风险、服务部署风险等因素。例如，资源有限的情况下，Closed LLM 或 Closed VLM 可能是较合适的选择；而对于追求高性能且有足够资源的场景，新架构 VLM 或通用 VLM 微调可能更具潜力，但也要权衡其带来的风险。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述