AI Agent 定义、分类、技术架构和应用路径【建议收藏】

来源:DATA数据社区、AINLPer

随着大模型的不断发展与普及,很多人已经明显体会到,大模型LLM在简单的办公场景应用已经非常成熟,但在一些复杂的业务场景,却很难落地应用。要想实现这一目标,需要很多专业的技术支持。由此,催生了大量AI Agent的需求。

作为今年特别重要的一个风口,躺在风口上也能稍你一程。那么什么是Agent呢,可能每个人对Agent的理解都不一样。今天给大家重新梳理一下Agent的知识,其中主要包括Agent组成、技术架构、技术前沿、应用场景、部署落地等,其中穿插了一些个人思考,有错误地方还请批评指正。

Image

 1、智能体的定义与分类

1.1 什么是智能体

智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。

Image

1.2 OS Agent:操作系统智能体

OS Agent(操作系统智能体)是一类特殊的智能体,它们通过操作计算设备(如计算机和移动手机)的图形用户界面(GUI)来完成各种任务。根据最新的OS Agent综述,这类智能体有三个关键组成部分:

  • 环境:OS Agent所处的操作系统环境,如Windows、macOS、Android等

  • 观察空间:智能体获取信息的方式,如界面截图、DOM结构等

  • 行动空间:智能体可执行的操作集合,如点击、输入、滑动等

Image

(来源于论文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)

1.3 智能体的主要分类

根据输入模态和技术实现,GUI智能体可分为三类:

  • 基于语言的智能体:仅使用HTML/XML等文本描述作为输入

  • 基于视觉的智能体:仅使用屏幕截图作为输入

  • 视觉-语言混合智能体:同时使用屏幕截图和文本描述作为输入

其中,基于视觉的智能体(如SpiritSight)和视觉-语言混合智能体(如MobileFlow)因其跨平台兼容性和丰富的感知能力,正成为研究热点。

Image

(来源于论文:OS Agents:A Survey on MLLM-based Agents for General Computing Devices Use)

2. 智能体的核心能力

现代智能体,特别是OS/GUI智能体,需要具备以下核心能力:

2.1 理解能力

理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought(CoT)技

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值