【AGI-Eval行业动态 NO.7】一文读懂Agent,或是AI下一程主角?

前言:托尼·斯塔克在《钢铁侠》中与J.A.R.V.I.S进行自然交流,让AI助手控制各种系统并完成复杂任务时,随着大型语言模型(LLM)的快速发展,这样的智能助手——现在我们称之为"智能体"(Agent)——正从科幻走向现实。Agent 到底是什么?怎么理解Agent及其壁垒?当前是不是 Agent 的发展机会点?不同群体如何迎接Agent的浪潮?未来 Agent 的发展趋势如何?……

今天从实测入手,带你一文读懂 Agent

Image

目录:

01 思考到行动,Agent 到底是什么?

     1.1发展历程

     1.2 Agent 与传统AI的区别

02 Agent 与大语言模型的关系

03 Agent 的应用实测

04 当前 Agent 技术前沿

     4.1 Betteryeah

     4.2 Coze

     4.3 AgentBuilder

     4.4 SkyAgents

     4.5 星火友伴

     4.6 智谱

05 Agent 的发展趋势

     5.1小模型、低能耗、多链与跨模态融合

     5.2从通用模型到行业专属模型

最近一段时间,Agent 可以说是毫无争议的 AI 领域顶流话题,在搜索平台随便输入 Agent,满眼都是 “爆火”“刷屏”“重磅” 这样的字眼。2025年初以来,从阿里发布的 Qwen-Agent 框架,到OpenAI 发布的 AI 智能体 Operator ,再到 Manus 的出圈,无一不让人感受到 Agent 发展的迅猛势头。

Agent 究竟有着怎样的魅力,能让整个行业都充满关注?今天,就让我们从实测入手,一起全方位、深入浅出地剖析 Agent。

01. 思考到行动

Agent 到底是什么?

1.1 发展历程

计算机领域:1950 年,图灵在《计算机器与智能》中提出 “高度智能有机体” 概念并创立图灵测试,为人工智能研究奠定基础。20世纪60年代,马文·明斯基在其研究中首次提出“Agent”一词,将其定义为一种自主运行的计算或认知实体,具备感知环境、推理决策和执行任务的能力。1972 年,麻省理工学院的 Marvin Minsky 明确提出 “Agent” 概念,强调其不仅能感知世界,还具备推理和执行行动的能力。

大模型领域:2022年,大语言模型的兴起赋予了Agent理解能力。其中,OpenAI将 Agent 定义为“以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。”

Siri 之类的助手,也可以看作是早期的 Agent,能帮用户完成打开软件、拨打电话等小任务。再往后发展,现在的 Agent(比如 Manus)真的可以帮助用户完成长时间、复杂的任务。

如果用一个形象的比喻,Agent 就像是一位全能助手。假设你要筹备一场旅行,传统的程序可能只是按照你设定好的步骤,帮你预订机票、酒店。但 Agent 会主动询问你的旅行偏好,比如是喜欢自然风光还是城市人文,预算大概是多少,然后综合这些信息,为你规划完整的旅行方案,包括景点推荐、行程安排,甚至根据实时交通状况动态调整出行路线。“自主性”是 Agent 的核心所在,它能够感知世界,并基于感知进行规划,然后采取行动,不是简单地执行预设任务,而是能够“自主”决策和行动。

Image

甲子光年智库《2025中国 AI Agent 行业研究报告》

1.2 Agent 与传统 AI 的区别

传统的 AI 系统往往是被动响应式的,它们需要人类明确地输入指令,并按照预设的算法和规则进行处理,输出结果。比如常见的图像识别软件,用户上传一张图片,软件根据已训练好的模型识别图片中的物体,但它不会主动去获取新的图片或对环境进行自主探索。而 Agent 具有更强的主动性和智能性,它不需要依赖指令,而是基于目标进行思索、规划和反思,未来的 Agent 将围绕任务场景重新设计交互逻辑,成为流程的核心(即“ AI 原生”)。

以智能客服为例,传统的客服机器人可能只是根据用户输入的关键词在知识库中搜索匹配的答案进行回复。但基于 Agent 技术的智能客服,不仅能理解用户问题的语义,还能根据用户的历史咨询记录、当前的情绪状态等,主动提供更贴心、更个性化的服务。它可能会在用户咨询某款产品时,主动推荐相关的配套产品,或者在用户情绪低落时,采用更温和、安抚的语气进行交流。

过去是人在使用搜索,搜索过程中使用了AI工具;未来是 AI 在使用搜索,AI 成为原生助理。人类本身不再需要直接使用搜索等工具,而是把完整的任务指令直接给到 AI 。AI 会思考、执行,并在过程中互动调整,完成最终的任务交付。

关注我们可以及时获取更多行业内容和资讯。

02. Agent 与大语言模型(LLM)的关系


很多人容易将 Agent 和大语言模型混淆,认为它们是一回事,或者认为 Agent 就是大语言模型的一种应用。实际上,大语言模型是构建 Agent 的重要基石,它的出现为智能代理的进一步发展带来了希望,但两者有着明显区别。

大语言模型,如 GPT、Claude 等,主要优势在于语言理解和生成能力。它们经过海量文本训练,能根据输入的提示词生成连贯、逻辑合理的文本,只有 user 一个输入。比如你问它 “介绍一下成都的著名景点”,它能详细地为你描述杜甫草堂、大熊猫基地等景点的特点。

Agent 是一个构建在 LLM 之上的智能应用,在 LLM 推理能力的基础上,进一步增加了工具调用能力和对环境进行反馈观测的能力。简单来说,“Agent = 大语言模型的推理能力 + 工具调用的能力+环境反馈的能力”。Agent 有 user 和环境反馈两个输入,需要结合 user 的指令和环境反馈采集的信息,进行工具调用,做出综合决策。

还是以旅行筹备为例,大语言模型可以提供旅行建议,但 Agent 能直接调用订票软件帮你订机票、酒店,通过地图工具规划出行路线,并且在旅行过程中,根据实际环境,比如航班延误、景点临时关闭等,进行反馈,从而实时调整计划。

Image

  来自论文:Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study      with LLM-driven AI Agents in a Real-time Shared Workspace Task

大语言模型更像是知识渊博的 “智囊团”,Agent 就像是一个具备实际执行能力的 “实干家”。LLM推动Agent的普惠化,促使其从学术讨论走向普惠应用。

03. Agent 的应用实测

——以推理互动小说生成为例

Agent 是从“思考”到“执行”的全流程任务执行者,以悬疑推理类互动小说创作为例子,我们先将这一主线任务拆解为几个不同的步骤:

一是创作包含人物关系和情节框架的小说

二是生成剧本相匹配的角色设计和场景插图

三是支持读者在阅读过程中与小说互动

DeepSeek-R1 整合了这一功能,用户只需提供一个主题,DeepSeek 便能自动完成以上任务。

Image

第一步:创作有人物关系和故事大纲的小说

该 Agent 能一次生成多个故事主题,用户可以选择其中的一个导语方向继续生成创作,通过提示词工程(Prompt),指导 Agent 生成,再通过 Javascript 等前端技术渲染到界面。

当我们轻轻点击,选定某一个导语方向,系统便自动进入下一步流程。在这个阶段,Agent 宛如一位得力的创作助手,化身人类创作者的最佳代理,接过创意的接力棒,凭借强大的运算能力和智能算法,帮助人类创作小说大纲,巧妙勾勒对应的人物关系,如下图所示。

Image

如果没有 Agent,仅依靠人类创作者自身的脑力劳动,从无到有构思出一部小说大纲,那将是一项极为耗时耗力的浩大工程,可能需要数十天甚至几个月才能构思完成。

第二步:生成剧本相匹配的角色设计和场景插图

在没有 Agent 的情况下,这一过程需要聘请专业原画师,画师需先花费大量时间阅读小说,充分理解故事背景、人物特质以及情节走向之后,才能够着手创作。而引入 Agent 后,省去了与画师反复沟通需求、协调风格,以及原画师手工绘制的环节,Agent 能够直接根据相关剧本信息,自动高效生成与剧本对应的角色图和场景图,极大地提升了创作效率。

DeepSeek 在多模态这一前沿领域也展现了强大的能力。今年 1 月 28 日,其发布了开源多模态 AI 模型 Janus-Pro,其中包含 70 亿参数版本的 Janus-Pro-7B。该模型采用解耦视觉编码框架和统一的 Transformer 架构,使用 SigLIP - L 视觉编码器实现独立的视觉编码,巧妙化解了长久以来传统多模态模型内部容易出现的冲突矛盾,使得它在处理图像与文本相关的各类繁杂任务时,灵活性和性能都大幅跃升,能够同时处理视觉数据和语言信息,根据文本描述生成高质量图像,精准做到图文多模态生成。

下图这是操作过程中实时生成的分镜效果,每个镜头都能精准对应推理小说的情节发展,将故事中的精彩瞬间、关键转折一一具象化。

Image

此外,该模型充分考虑到用户的使用场景与便捷性需求,支持在消费级电脑上本地运行,用户无需依赖高端服务器,为广泛的应用场景提供了便利,真正做到了科技赋能大众。

第三步:支持读者在阅读过程中与小说互动

DeepSeek-R1 具备强大的推理能力,因此 Agent 还引入了趣味互动,进一步将读者带入小说世界,与小说故事情节产生深度互动。

如图所示,Agent 在展开小说内容的同时,会自动分析并计算出在哪些转场后穿插互动环节。这类互动的实现需要在智能体设计阶段明确提示 DeepSeek,在故事的关键节点嵌入推理互动。DeepSeek-R1 利用自身推理能力,自动生成高度契合故事情节的互动内容,从而提升阅读体验。

Image

从“思考”到“执行”,短短几分钟,一个悬疑推理类互动小说就被 Agent 创作出来。

04. 当前 Agent 技术前沿

之前的很多模型难以满足实际需求,今年的模型在推理速度、调用工具的能力和稳定性上都有了突破,故大家普遍认为2025年是“Agent 元年”,推进自主 Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。

如今, Agent 的场景化应用正在迅速落地中,几乎所有行业都值得用 AI 重新做一次,AI Agent 是实现这一步的关键一环,下面为大家介绍几个具备广泛落地条件的 Agent 平台。

Image

4.1 Betteryeah

Image

网址:https://www.betteryeah.com/agentstore

Betteryeah核心团队源自阿里巴巴钉钉的初创精英,专注于打造零门槛 Agent 构建平台,致力于快速激活并释放大模型的强大潜力。它为用户提供一站式解决方案。开发模式灵活多变,既支持单一 Agent 的精细化打造,也适用于 Multi - Agent 系统的复杂部署,满足不同业务场景的多样化需求。面向企业级市场,聚焦 AI 客服、营销、销售等多个关键领域,提供智能化升级的全面解决方案,助力企业轻松实现数字化转型与智能化升级。

4.2 Coze

Image

网址:https://www.coze.cn

Coze 是字节精心打造的 AI Bot 开发旗舰平台,致力于赋能开发者,在智能体编排工具成熟度、插件广泛性、兼容大模型种类多样性以及发布渠道全面覆盖等方面均展现出非凡实力。平台自研的云雀大模型和外部知名的 moonshot 等尖端技术均对开发者免费开放,无论是生态构建、用户体验还是底层技术支撑,都是智能体平台中的佼佼者。

4.3 AgentBuilder

Image

网址:https://agents.baidu.com/

AgentBuilder旨在降低智能体开发门槛,让每个人和组织都能成为智能体开发者,基于文心大模型的智能体平台,支持开发者根据自身行业领域和应用场景选择不同类型的开发方式,提供低成本的 prompt 编排方式,同时具备零代码和低代码两种开发模式,适合不同技术背景的开发者。

4.4 SkyAgents

Image

昆仑万维推出的天工 SkyAgents 是一款引领未来的 Agents 构建平台,旨在重塑智能应用的创造边界。用户仅需自然语言输入即可描述 Agent 功能与行为,可视化拖拽界面将复杂技术操作简化为直观图形操作,深度集成 Skywork 大语言模型,提升智能化水平。

智能体适配各类业务场景,如电商、金融、制造等领域,提供定制化智能解决方案助力企业数字化转型。其智能体中心形成活跃社区生态,有官方示例 Agents 展示最佳实践,全球开发者贡献智慧,构建多元化 Agent 市场,为用户提供更多选择。

4.5 星火友伴

Image

网址:https://xinghuo.xfyun.cn/

讯飞科技凭借深厚 AI 技术底蕴,携手星火 V3.0 强大引擎,打造专注于虚拟人格 GPTs 应用的创新平台,为个性化智能交互体验开辟新道路。智能体中心有讯飞官方设计的多种虚拟人格模板,涵盖客服助手、聊天伙伴、顾问导师等角色设定。用户可按需选择模板并进行二次改造与个性化定制,满足不同场景需求。

4.6 智谱

Image

网址:https://www.zhipuai.cn/

智谱清言推出的 Agent 生成器在提供基础智能体生成能力的同时,支持开发者通过 API 调用方式灵活使用智能体。其 API 覆盖清言 C 端页面核心功能,包括文本对话、文生图、图片解读、联网搜索、文档解析、Python 代码执行及外部 API 调用等。

GLM-PC v1.1可用于文本对话、文生图、图片解读、联网搜索、文档解析、Python代码执行及外部API调用;AutoGLM可在接收简单的文字/语音指令后,模拟人类操作手机

05. Agent 的发展趋势

5.1小模型、低能耗、多链与跨模态融合

Image

甲子光年智库《2025中国 AI Agent 行业研究报告》

未来的 Agent 将具备更强的多模态感知和处理能力。它不仅能够理解和处理文本信息,还能同时对图像、声音、视频等多种模态的信息进行综合分析和理解。例如,在智能会议系统中,Agent 可以通过摄像头识别参会人员的面部表情和肢体语言,通过麦克风分析语音内容和语气,从而更准确地理解会议的氛围和每个人的意图,为会议提供更智能的辅助服务,如自动记录会议要点、生成会议总结、提醒相关人员后续任务等。

5.2 从通用模型到行业专属模型

AI Agent 将加速 AGI 时代的到来,在智能农业中,Agent 可以通过与遍布农田的传感器连接,实时获取土壤湿度、肥力、气象条件等信息,根据作物的生长需求,通过控制灌溉设备、施肥设备等执行器,实现精准灌溉、精准施肥,提高农业生产的智能化水平和资源利用效率。

智能建筑中,Agent 可以通过物联网系统,对建筑内的照明、空调、电梯等设备进行统一管理和优化控制,实现节能减排和提高用户舒适度的目标。

在交通管理中,多个交通智能 Agent 可以分别负责不同区域的交通监测和调控,它们之间通过通信和协作,实现整个城市交通系统的优化,缓解交通拥堵,提高交通效率。

……

AI 的未来不仅仅是构建更智能的 Agent——更重要的是创建能够随着技术进步而进化和扩展的系统。Agent 作为人工智能领域的前沿技术,正在以惊人的速度改变着我们的生活和工作方式。它的出现为解决各种复杂问题提供了全新的思路和方法,促使 AI 从“工具”演变为“伙伴”,虽然还不完美,但潜力巨大。

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!

往期回顾

1.【AGI-Eval行业动态 NO.6】Manus爆火48小时:一场关于AI未来的“乐观”与“警惕”

2.【AGI-Eval行业动态 NO.5】今年太卷了,30+的模型已发布,还有10款模型即将发布!

3.【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度,但背后仍然还有新的问题

我们也在探索Agent能力评测的新方式,同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性,发现更多不一样的视角,提出问题才有机会解决问题。

image.jpeg

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值