2024 年是 AI Agent 的发展元年,多位科技巨头曾在公开演讲中表示 AI Agent 是 AI 应用的重要落地方向。
用吴恩达老师的话来说:“AI 智能体将在今年推动 AI 领域的巨大进步——甚至可能比下一代基础模型的影响还要大。这是一个重要的趋势,我敦促所有从事 AI 工作的人都关注它。”
本篇文章中,我们将一起探讨 AI 智能体的发展趋势、目前阶段,解析未来的 Super Agent的落地方向。尽管目前 AI Agent 技术尚未完全成熟,但它们在提高工作效率、个性化服务以及专业领域应用上的潜力已经初露端倪。
Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
-AI 智能体将会大量出现、形成生态:在各行各业、各个领域都会依据自己具体的场景,根据自己特有的经验、规则、数据,做出来这些智能体。
-Super Agents 仍未出现:Super Agents的发展受限于 LLM 的长尾推理能力不足和落地场景的挖掘困难,难以在无人工干预下解决复杂问题,且市场上 AI Agent 功能趋同,竞争激烈。
01.AI Agent是AI时代的APP
比尔盖茨曾在他的官方博客中预言,在不久的将来,任何上网的人都能拥有一个远超今天技术水平的人工智能助手(Personal Assistant Powered by Artificial Intelligence),它将彻底改变我们的生活方式。
类比于接入手足的 LLM(语言大模型),AI Agent有记忆、规划、行动、和使用工具的能力。
它不仅能够执行复杂的跨应用任务,还能进行细致入微的对话,理解用户的意图和行为模式。它们的主动性体现在能够预测用户需求并提供建议,而不仅仅是被动响应。随着使用,AI Agent会不断学习和改进,适应用户的独特需求。
AI Agent原理图
目前,AI行业已经达成普遍共识:智能体是 AI 时代的 APP。
随着语言大模型 token 成本的减少和 AI Agent 搭建门槛的降低,“人人都可以一句话搭建自己的AI智能体” 的 Agent 时代逐渐来临。
根据百度 CEO 李彦宏的预测,人工智能领域将迎来一个重要的转变,即 AI 智能体将会大量出现、形成生态。
在各行各业、各个领域都会依据自己具体的场景,根据自己特有的经验、规则、数据,做出来这些智能体。最终,AI智能体的数量可能会比人类还多,人们能以不同的方式与之互动。
02.AI Agent 目前的阶段
目前,AI Agent 领域的竞争已经进入白热化阶段,各大科技公司都在积极探索其潜力。
微软推出了“Copilot”项目,旨在通过自动化技术帮助企业提升客户服务和管理任务的效率。Anthropic 则发布了其人工智能聊天机器人Claude的新功能,允许用户创建个性化的“人工智能助手”。
OpenAI 将 AI Agent 视为实现 AGI(通用人工智能)的五级方法中的第二级,显示出其在 AI 发展历程中的重要地位。近日,OpenAI 推出了 Canvas,正式下场做 Agent 产品,利用 AI 重塑创作体验,收获好评无数。
Canvas界面:用于与 ChatGPT 合作编写或编码项目
VC (风险投资)也正在涌入智能体初创公司,这些公司承诺将彻底改变人与技术的互动方式。AI Agent 赛道成为风投资金最活跃的方向。
AGI 的终极目标是创造一个真正的合作伙伴,而不仅仅是一个 AI 工具。自 20 世纪 70 年代以来,科技公司一直在尝试实现个人工作的自动化,而现在,AI Agent正逐步接近这一目标。
B 端企业希望通过 Agent 处理从客户服务到数据分析的所有事务,从而实现效率的飞跃。对于 C 端个人而言,人工智能公司正在开创一个生产力的新时代,在这个时代,常规任务的自动化将释放出更多时间,让人们专注于创造性和战略性工作。
我们见证了许多有趣的 AI Agent 应用逐渐成为现实,目前刷屏朋友圈的智能体热点已成为趋势。
例如,作为辅助工具型的AI Agent,Cursor 能够让完全不会代码的小白用户在数分钟内手搓代码,并实现落地应用。
最典型的使用案例就是 Cursor 创始人的女儿在该智能体的帮助下,仅用 8 分钟就创建了个人网站。过程仅需用自然语言描述自己的需求,Cursor 就能直接生成代码并一键实现,这一用例迅速在网络上走红。
还有娱乐型的 AI Agent,如文心智能体平台上的“躺平之城推荐官”。这款智能体能够基于大数据和AI,帮助当代 45° 躺平青年发现最适合自己的躺平城市。
比如,在对话框内输入:哪个城市最具性价比,该款智能体便自动帮我计算各个城市的综合得分,并给出了答案:鹤岗。
它还详细地给出了关于鹤岗这座城市在房价、成本、气候等各个维度的评分。
03.为什么Super Agent尚未出现?
尽管 AI 智能体赛道已经鸣枪开跑,如火如荼的探索热潮之下,Super Agents 仍未出现。
Sam Altman 曾将 Super AI Agents 描述为“超级能干的同事“,他憧憬着:“你真正想要的就是这个能帮你的东西。它完全了解我的一生、每封电子邮件、我曾经进行过的每一次对话,但又不觉得是它的简单延伸。它可以立即处理简单的任务,对于更复杂的任务,它会尝试执行,但如果需要,它会返回问题。”
现实却不如理想中的美好。AI Agents 虽然容易想象,但实现起来却困难重重,AI Agents 的杀手级应用还在不确定的未来。
Super Agent 的瓶颈之一在于目前的 LLM (大语言模型)缺乏足够的长尾推理能力而稍显笨拙,无法在没有人工介入的情况下真正解决复杂、高风险的问题。此外,大模型的幻觉问题仍然不容小觑,难以严格遵循指令,容易带来一系列安全隐患。
当然,这种情况会随着新模型的出现而在未来有所改变,但我们也可能需要将 Agent 的规划能力转移到不受 LLM 控制的更具确定性的系统。
除了大模型的能力限制之外,另一个挑战是场景的挖掘。
落地容易,爆款难出,AI Agent 赛道拥挤,各类智能体应用功能同质化严重。
要让 AI 智能体真正用起来,实现商业变现,如同拿着锤子找钉子,需要找到各个垂类场景下合适的锚点。
“AI 教母”李飞飞也曾强调:AI Agent 的用武之地可能在各个行业的垂直领域。因为在各个传统行业,有大量的专业场景、数据、经验没有被挖掘,特别是专业壁垒高的行业如医疗、法律、建筑等。
例如,文心智能体平台上的这款“武守恭医生的 AI 分身”,专注于提供中医和儿科领域的专业知识。它收录了武守恭医生 40 年的临床专业知识。患者可以针对日常生活中遇到的常见病症,对该款 AI 智能体进行咨询。
只要输入对病情相关的描述,便可以快速获得在相关领域的专业指导,切实地解决了病人看病难、不方便的问题。
未来,通用型 AI Agents 会逐渐走向细分专业化。专业化的 AI Agents 能够更精准地解决特定领域的问题,提供更高效的服务。
结语
Open AI 新任首席产品官 Kevin Weil 在新闻发布会上表示:“我坚信 2025 年将是 AI 智能体真正进入主流的一年。如果我们能够正确地引导这一进程,它将引领我们进入一个全新的世界,在这个世界里,我们可以将更多的时间投入到真正重要的事情上。”
在接下来的几年里,我们可能会见证人工智能从那些过于膨胀的期望中回归,转向更加脚踏实地的应用领域。
这并不是说人工智能的创新步伐会有所减缓,相反,我们将看到更多专注于解决实际问题并带来实实在在益处的人工智能解决方案的涌现。
随着技术的不断进步,AI 智能体的工作流程已经开始从一种新奇的“玩具”阶段,逐步过渡到真正的务实阶段。未来,它们必将为开发者带来前所未有的高效创新体验,让我们拭目以待。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。