2025年,智能体元年来了。
1月24日,OpenAI发布了首个AI Agent(AI智能体)产品Operator,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能在后台自动完成。
此前,智谱在OpenDay上也演示过的Agent产品AutoGLM,根据语音口令,就能点外卖、建微信群、发微信红包,还能在不同APP之间来回跳转,比如在美团和饿了么之间比价,在手机电脑新能源汽车内同步使用。
Agent意味着大模型从Chat走向Act,更承载着AI行业的最大野望:掌握互联网入口,重塑流量分发格局。
只不过,由于当下部分网站访问受限、大模型黑盒依然存在、用户付费意愿未知,Agent将走向何方,蜂拥而至的Agent厂商又有谁能活到三年后,依然是未解之谜。
Agent发展超40年,经历了基于符号规则、统计学习、强化学习三种业务模式,前两者只能用于特定任务或特定能力的执行,本轮Agent基于大模型,具有知识记忆、长期规划、有效泛化等特点,可以通过与环境互动学习,也可以从少量样本中推理出最优策略。
据Markets and Markets预测,全球AI Agent市场将从2024年的51亿美元增长到2030年的471亿美元,年复合增长率达44.8%。
一、大模型学会了“网上冲浪”,一句话实现跨App全自动无人操作
Operator,被OpenAI定义为“能够为你执行网络任务的AI智能体”。
Operator的页面与ChatGPT大致相似,只是输入框的提示词从“我能帮您什么吗?”变为了“我能帮您做什么吗?”
在演示中,输入订餐要求,比如“在 Beretta餐厅订一桌两人位置,今晚 7 点。”Operator 会打开一个浏览器,开始搜索餐厅并着手预订。
过程中,如果Operator发现Beretta今晚 7 点没有位置后,它会主动询问用户是否选择“今晚 7 : 45”,当“今晚 7 : 45”这个时间点也无法预定后,它又提供了 6 : 15和 8 : 15两个预订时间供选择。
当用户想要购买日用品时,Operator可以找到购物网页,搜索商品-添加到购物车,搜索商品-添加到购物车,不断重复,直到买齐所有商品。最终结算时,Operator 会将操作权交还给用户,要求用户手动确认和支付。
Operator实际上是模拟人类在电脑上的操作行为,通过点击、滚动、输入等操作直接与网页进行交互,完成各种任务。简单来说,Operator 就像你的数字管家,可以浏览网页、填写表格、订购商品以及预订餐厅等,也可以代替我们进行一些繁琐甚至复杂的操作。
智谱的AutoGLM也是如此。
在2024 年11月29日的智谱OpenDay 上,智谱CEO张鹏演示了这样的情景:对手机说“面对面建群,密码是xxxx”以及“给xx群发红包”,AutoGLM自动点开微信,搜索并点开xx群,开始发红包。只不过在支付环节,仍然需要手动输入支付密码。
据介绍,AutoGLM 可以自主执行超过50 步的操作,也可以跨App执行任务,比如在美团和饿了么比价、在小红书搜攻略然后去携程订酒店,在抖音、微博、饿了么、京东、拼多多等App之间来回跳转都不是问题。智谱还推出快捷口令功能,可以预设常用指令短语,提升使用的便利程度。
不管是网页还是App,Agent能做到像人一样流畅操作,背后是模型视觉能力和推理能力的提升带来的质变。
比如Operator 之所以能够像人类一样操作电脑,离不开 OpenAI 量身打造的“计算机使用智能体(CUA)”。这是一套基于 GPT-4o 的视觉能力和高级推理能力,可以观察屏幕并使用虚拟鼠标和键盘来完成任务,不用专门的API接口。
通过GPT-4o的视觉能力,Operator能够“看懂”屏幕截图,“理解”网页的按钮、链接、文本框等要素,然后通过推理能力制定计划,使用虚拟鼠标和键盘完成界面操作,直到任务完成。
从“说(Chat)”到“做(Act)”,Agent迈出大模型走向现实世界的第一步。
二、垂类应用率先落地,你的工作助理上线了
相较于C端Agent的“网上冲浪”能力,在B端,Agent已经更早融入工作流程,开始“打工人”的一生。
2024年10 月,微软开发部署10款AI Agent——主要服务于企业的销售环节、会计业务以及客户服务等领域。这些智能体可以读取Microsoft 365 Graph、记录系统、Dataverse 和 Fabric 中的工作数据上下文,从而具备业务理解能力与工作技能,支持从 IT 服务台到员工入职的所有工作,相当于充当销售和服务人员的工作助理。
根据微软公布的案例,麦肯锡正在开发加速客户引入流程的Agent,项目试点结果显示,Agent可以节省 90%的筹备时间和 30%的行政工作;汤森路透则开发了一个用户法律尽职调查的Agent,部分任务可用过去一半的时间完成。
Shopify 则将Agent和电商工作流相结合,不仅能帮助商家快速准确地回复客户查询,还可以针对商店开发、营销、客户支持和后台管理等任务,提供个性化且符合情境的支持,比如产品描述、电子邮件、在线商店标题和常见问题解答等。
钉钉在2024年1月发布了AI助理(AI Agent),4月正式上线AI助理市场(AI Agent Store),覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目。钉钉表示,其AI助理市场致力成为最活跃的AI助理孵化、分发和交易平台,钉钉官方的Al助理、生态伙伴和开发者构建的Al助理、个体用户创造的Al助理,将成为三个主要组成部分,并从中获取商业收益。
国内的Agent还有支付宝旗下AI App支小宝、百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体、字节扣子等,面向企业用户提供智能体创建平台。
根据亿邦动力观察,Agent在B端已经被广泛应用于金融、医疗、法律、财务、生产、物流、资管、人力等专业性极强的领域。
其中,金融已经成为Agent应用的首选。Gartner 调查发现,61%的银行高管表示所在公司正在或计划未来增加对人工智能的投资。例如为客户提供财务建议的AI 理财教练,在增收方面至少可以提升30%。
医疗服务同样需求旺盛。Agent可以涵盖日常辅助、影像分析、病历管理、手术支持、慢病管理等多场景,IBM的 AI智能体Watson Health还可以分析医疗数据并推荐治疗方案。
法律行业也有望成为Agent 的重要应用场景。Agent 可以帮助律师起草法律材料、汇总文档、做好研究。
这些“数字员工”能够在特定领域熟练分解复杂问题,动态选择最优解决路径。因为Agent会将大型任务分解为子任务,自动进行任务规划,并对所有流程进行评估;在执行任务的过程中,Agent具备记忆能力,短期记忆基于上下文,长期记忆基于向量数据库,可以进行多轮对话、保存用户特征、更新业务数据与最新信息。此外,Agent还能够调用API、插件等工具,更新业务信息并支持开发新功能。
德勤AI研究院称,AI智能体将改变基础业务模式,实现新的工作、运营和价值交付方式。而红杉合伙人Konstantine Buhler则预测,医疗和教育等“高服务成本”领域,将成为AI技术的下一个重要战场。
怪不得比尔盖茨在博客上写:AI Agent“将彻底改变计算机使用方式,并颠覆软件行业”。他还预言“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”。
三、不够靠谱的Agent,能不能承载“下一个平台”的野心?
无数人对Agent寄予厚望,这种情绪在2024年下半年更加强烈。
毕竟在线上高质量数据到头、预训练结束、Killer App哑火之后,大模型行业需要新的“重塑世界”的故事和野望来支撑行业发展的信心和动力,Agent就这样成了“全村的希望”。
但Agent目前面临的首要问题还不是商业化,而是能力限制。目前Operator、AutoGLM等C端应用还面临诸多限制,比如,对提示词的要求较高,部分网页/APP拒绝Agent访问,操作延迟时间长,以及大模型长期记忆中的一致性问题,等等。
B端对专业化的要求更高,Agent训练需要在通用模型的基础上,配备垂直领域数据,和业务流程做深度耦合。同时,Agent的效果与企业配套的信息化、数据化能力正相关,企业的数据积累能力,决定了Agent在企业应用中的价值。
大模型的“黑盒”和“幻觉”也是不能忽视的限制要素。Agent的架构包括感知、规划、记忆、工具使用和行动等关键组件。在LLM“黑盒”面前,每个步骤都存在不可预测性,而工作流程更是要将多个AI 步骤连接起来,不可预测性层层放大,会影响任务的准确性和安全性。
目前这些“不靠谱”并不会使Agent降温,其背后也有相应的理论支撑。
智谱给大模型发展定义出五个发展阶段:L1 语言能力、L2 逻辑能力、L3 使用工具的能力、L4 自我学习能力、L5 探究科学规律。目前大模型已经初步具备了人类与现实物理世界互动的部分能力,而Agent被认为位于L3 使用工具能力,同时正在开启对L4的自我学习能力的探索。
在当下这个节点,Agent产品如雨后春笋,不仅大厂开始布局,创业者更是蜂拥而至。但我们所期待的真正Agent——如全能助手Jarvis一样灵活,或者如专家学者一般可靠,有待关键技术突破。这也意味着未来一段时间内,我们能期待的,还是L1到L3之间Agent,它们通过大量能源和算力成本,慢悠悠解决一个点外卖或做笔记的任务,然后等着厂商们一个场景一个场景的试错。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。