来源:DATA数据社区、AINLPer
随着大模型的不断发展与普及,很多人已经明显体会到,大模型LLM在简单的办公场景应用已经非常成熟,但在一些复杂的业务场景,却很难落地应用。要想实现这一目标,需要很多专业的技术支持。由此,催生了大量AI Agent的需求。
作为今年特别重要的一个风口,躺在风口上也能稍你一程。那么什么是Agent呢,可能每个人对Agent的理解都不一样。今天给大家重新梳理一下Agent的知识,其中主要包括Agent组成、技术架构、技术前沿、应用场景、部署落地等,其中穿插了一些个人思考,有错误地方还请批评指正。
1、智能体的定义与分类
1.1 什么是智能体
智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。
1.2 OS Agent:操作系统智能体
OS Agent(操作系统智能体)是一类特殊的智能体,它们通过操作计算设备(如计算机和移动手机)的图形用户界面(GUI)来完成各种任务。根据最新的OS Agent综述,这类智能体有三个关键组成部分:
-
环境:OS Agent所处的操作系统环境,如Windows、macOS、Android等
-
观察空间:智能体获取信息的方式,如界面截图、DOM结构等
-
行动空间:智能体可执行的操作集合,如点击、输入、滑动等
(来源于论文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)
1.3 智能体的主要分类
根据输入模态和技术实现,GUI智能体可分为三类:
-
基于语言的智能体:仅使用HTML/XML等文本描述作为输入
-
基于视觉的智能体:仅使用屏幕截图作为输入
-
视觉-语言混合智能体:同时使用屏幕截图和文本描述作为输入
其中,基于视觉的智能体(如SpiritSight)和视觉-语言混合智能体(如MobileFlow)因其跨平台兼容性和丰富的感知能力,正成为研究热点。
(来源于论文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)
2. 智能体的核心能力
现代智能体,特别是OS/GUI智能体,需要具备以下核心能力:
2.1 理解能力
理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought(CoT)技