2024年是人工智能agent走向主流的一年。
从年初黑客们那些笨拙、昂贵且充满激情的项目开始,agent现在已经得到了科技巨头、SaaS公司、学术研究人员等更多人的接纳。与此同时,他们的形式也在不断增多,从文本扩展到多种模式,并在现实世界中执行行动的能力也变得更强大。
在这里,我预测2025年agent领域的轨迹,因为它开始在人工智能社区之外产生影响力。
1. 对agent的兴趣持续激增
今年,对人工智能agent的兴趣爆发式增长,谷歌搜索量增加了十倍。像CrewAI这样的流行agent框架迅速扩大了用户基础,agent在基于LLM的应用程序中占据了更大的比例。更具体地说,我观察到AI agent的知名度显著提高——去年,即使是人工智能社区中很少有人知道这个术语,但现在许多专业人士,包括那些没有直接参与人工智能的人,都知道它。
我预计这种趋势将持续下去——提高agent能力以及降低成本的压力将促使企业领导者越来越多地将它们集成到他们的运营中,形成一个良性循环:不断增长的投资导致能力提升,反过来又加剧了采用。
2. 企业agent竞赛加剧,SaaS公司转向agent
微软、谷歌和Salesforce等大型科技公司正在激烈竞争,争夺有利可图的 enterprise agent 市场,Meta也暗示了它在该领域的野心。这些公司的领导者加入了预言agent将取代传统软件即服务(SaaS)的声音,因为它们的适用性更强。不出所料,SaaS和机器人流程自动化(RPA)公司正在迅速转向agent,以避免落后,并转向基于结果定价,这是一种不言而喻的承认,即agent可能会减少人员编制,导致坚持按座位定价的公司收入降低。
我预测,到2025年,企业agent市场将趋于类似于云计算市场的生态系统,几个主导公司——类似于亚马逊AWS、微软Azure和谷歌云平台——控制着大部分市场份额,许多小型提供商提供一系列更专业的服务。
3. agent成为经济行为者
今年的另一个重要趋势是agent作为自主经济行为者的出现,它们能够与人类进行交易,而不仅仅是完成后台任务。像Stripe这样的主要公司和许多初创公司都在开发集成,使AI agent能够发送和接收支付。在短期内,这项技术可能主要用于简化用例,如电话购物。然而,在未来的一年里,我预计agent将开始获得更多的财务自主权;例如,能够识别必要工作的承包商,雇佣他们,并在完成工作后释放付款——尽管目前可能仍需要人类谨慎的监督。
4. 视觉和浏览器agent得到改善
虽然最早的AIagent如AutoGPT只提供文本,但多模态LLM的兴起导致了一个新类别的出现:所谓的计算机控制agent,它们通过图形用户界面(GUI)与人类以类似的方式进行任务,大大扩展了它们的效用范围。其中一些agent仅限于网络浏览器,而另一些——理论上——可以执行PC用户可以执行的任何操作。Anthropic、OpenAI和谷歌都发布了或承诺了多模态agent能力。到2025年,这些agent将变得越来越突出,并开始具有“数字工作者”的特征,这是agent领域的最终目标。
5. agent的错误使它们进入公众视野
虽然AI agent作为劳动力乘数具有巨大的潜力,但它们仍然容易出错,这既是因为LLM本身的局限性,也是因为围绕它们构建的agent系统。一些错误是不可避免的,并且组织日益赋予它们的责任将相应地增加后果的严重性。我预测,在未来的一年里,至少一个agent犯的错误将足够严重,足以成为新闻故事,使AI agent受到公众关注——以负面形象出现。这种风险,包括agent失败造成的直接损害以及加剧已经严格的监管审查,突显了精心设计和安全措施的关键需求。
明天,人工智能agent领域将结束一个在能力、投资和主流兴趣方面取得显著增长的年份。尽管接下来的365天承诺将继续这种狂热节奏,但它们将以一个额外的特点:2024年计划和承诺的agent系统将开始投入生产和接触现实世界。虽然我对它们将带来的巨大好处充满信心——否则我不会有一个名为“构建人工智能agent”的通讯——但风险也同样存在,AI agent的构建者不能接受任何低于卓越的标准。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。