AI Agent 定义、分类、技术架构和应用路径【建议收藏】

学客汇

于 2025-03-23 11:16:08 发布

阅读量977

点赞数 12

分类专栏：智能体大模型文章标签：人工智能智能体 agent 智能体技术架构大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43218591/article/details/146453488

版权

来源：DATA数据社区、AINLPer

随着大模型的不断发展与普及，很多人已经明显体会到，大模型LLM在简单的办公场景应用已经非常成熟，但在一些复杂的业务场景，却很难落地应用。要想实现这一目标，需要很多专业的技术支持。由此，催生了大量AI Agent的需求。

作为今年特别重要的一个风口，躺在风口上也能稍你一程。那么什么是Agent呢，可能每个人对Agent的理解都不一样。今天给大家重新梳理一下Agent的知识，其中主要包括Agent组成、技术架构、技术前沿、应用场景、部署落地等，其中穿插了一些个人思考，有错误地方还请批评指正。

1、智能体的定义与分类

1.1 什么是智能体

智能体（Agent）是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统，一般具有记忆、规划、采取行为、使用工具等基本能力，如下图所示，其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同，智能体具有自主性、持续性和适应性，能够在复杂环境中持续学习和优化自身行为。

1.2 OS Agent：操作系统智能体

OS Agent（操作系统智能体）是一类特殊的智能体，它们通过操作计算设备（如计算机和移动手机）的图形用户界面(GUI)来完成各种任务。根据最新的OS Agent综述，这类智能体有三个关键组成部分：

环境：OS Agent所处的操作系统环境，如Windows、macOS、Android等
观察空间：智能体获取信息的方式，如界面截图、DOM结构等
行动空间：智能体可执行的操作集合，如点击、输入、滑动等

（来源于论文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

1.3 智能体的主要分类

根据输入模态和技术实现，GUI智能体可分为三类：

基于语言的智能体：仅使用HTML/XML等文本描述作为输入
基于视觉的智能体：仅使用屏幕截图作为输入
视觉-语言混合智能体：同时使用屏幕截图和文本描述作为输入

其中，基于视觉的智能体（如SpiritSight）和视觉-语言混合智能体（如MobileFlow）因其跨平台兼容性和丰富的感知能力，正成为研究热点。

（来源于论文：OS Agents：A Survey on MLLM-based Agents for General Computing Devices Use）

2. 智能体的核心能力

现代智能体，特别是OS/GUI智能体，需要具备以下核心能力：

2.1 理解能力

理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如MobileFlow引入了GUI Chain-of-Thought（CoT）技

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。