对于GPT出来已经2年多快3年的时间了,我上个周末在参加惠州一个CIO私享会交流的时候,还初步梳理了下AI整个发展的脉络。
- GPT和AIGC早期发展
- 多模态技术,智能体,RAG增强检索
- 深度思考模型和通用智能体
- MCP和A2A协议生态的发展
而且当下,各种AI大模型,AI智能体和AI应用软件相当多,那么对于普通人应该如何学习和用好AI赋能?在不聊底层大模型,Transformer,MOE等技术的情况下,我们应该顺着AI发展时间线进行脉络梳理。在理解了整个AI大模型最近几年的发展后,更加容易理解AI应用的重点究竟在哪里。
1. 最简单的内容生成
所以在这里大家要注意常说的LLM大语言模型实际是底层的一个技术架构,包括了模型,算法和已经训练的历史知识库。GPT,Claude,阿里 QWen,百度文心一言都是大语言模型。
但是大语言模型只是提供了一个能力接口API给上层,你没法用。类似GPT,为了方便用增加了一个Chat对话框,变成了ChatGPT。所以你可以说GPT是大语言模型,但是不能说ChatGPT大语言模型,ChatGPT只是在大语言模型上增加了一个方便用的对话框入口。
那么GPT为何一出来就爆火?
简单总结就是内容生成能力,再简单点就是无中生有能力。
原来的软件程序,包括搜索引擎,往往都是有中生有,按提前约定的规则进行执行,最终形成一个输出,这个输出往往都是对已有内容的审核,总结或归纳。而GPT完成一个关键事情,从无到有的内容创作。
那么我们将输入和输出都从简单和复杂两个维度拆解。
从上面图也可以看到,可以分为四类:
- 简单到简单:内部计算复杂,但是输入输出都简单,类似解题
- 简单到复杂:内容生成强项,比如写篇作文
- 复杂到简单:典型场景就是大量文献阅读总结
- 复杂到复杂:需要规划,计划,分解,执行
可以看到前面三类大模型处理起来问题都不大,唯一的就是对于涉及到复杂的场景,需要更长的Tokens记忆能力支持。而对于复杂到复杂往往是最难的,涉及到规划计划,分解执行诸多环节。
那么为什么复杂到复杂会很难?
其一是复杂问题往往需要感知和理解问题,这里面涉及到问题的拆解;其二是复杂问题往往涉及到最实时的信息获取,但是大模型知识库训练往往延迟半年以上;其三是复杂问题往往和工作学习实际场景下私有知识库相关,这些私有大模型也不具备。
2. 复杂问题解决能力
那么对于上面三个问题大模型发展过程中如何解决?
对于知识库不及时问题大模型可以启用联网搜索能力,对于私有知识问题,大模型允许你上传知识库;而对于复杂问题拆解和推理,存在两个发展分支,一个是通过上层AI Agent智能体来做问题感知,计划,执行;一个是大模型本身发展到深度思考模型,类似GPTo1和年初DeepSeek R1深度思考模型的推出。
好了,那么对于类似地图,酒店机票预订,代码库,企业私有DB库这些外部资源或能力如何接入大模型?有些内容是不适合通过RAG增强检索的方式接入的。而对于这类外部资源或工具,当前的参考做法就是构建统一标准的MCP协议生态来接入。对于这块内容可以参考我前面讲MCP协议相关的文章进一步了解。
在了解了这点后,对于复杂问题解决变成下图。
在我们分别看下AI智能体和深度思考两个能力的发展。
AI智能体-感知计划和执行
先来看AI智能体,我不想详细的去讲AI智能体的定义,但是我们一定要注意,在谈任何谈AI智能体,一定就涉及到我这张片子里面的内容,具体如下:
当你面对复杂的业务场景问题的时候,一定具有理解、规划、分解、执行汇总输出,反思记忆,包括进行循环多次迭代的这么一个能力。只有你做了这些事情,他才能够称得上一个真正的AI智能体。
AI智能体里面一定有个核心的东西就是叫执行,在执行里面他会做哪一些关键的事情呢,其中就包括了类似于联网通用搜索,私有化的一些RAG知识库的增强检索,包括自定义写代码来处理一些复杂的规则逻辑,包括你去调用互联网应用已有的一些能力API,还有就是行业专有的一些解决行业问题的特定的API接口,还有就是我们有经验的专家,构建的提示语模板,还有它就必须具备我刚才说的自我检查多轮迭代长周期记忆的能力,这些才是你要做一个AI智能体相当关键的内容。
深度思考+FunctionCall+MCP
再回到上图,2和3两点能力结合同样具备了AI智能体的能力。大模型从通用模型发展到深度思考模型后,大模型本身就具备了问题分解,任务规划的能力。同时对于外部资源和工具的获取可以通过MCP协议生态或传统的FunctionCall来完成。那么大模型自然就是一个完整的AI智能体。能够解决复杂问题。
在大模型具备深度推理能力后,企业级AI应用目标是构建一个通用性AI智能体,提供面向业务场景和问题的端到端输出,在这个过程中需要进行问题规划理解,拆分,行动,归纳总结,复盘,记忆能力。企业级AI应用不应该是再开发一个个独立的AI Agent信息孤岛。
MCP Sever能力接入可以穷举,但是AI Agent定制化开发难以穷尽,一个个去开发Agent思路将被淘汰,这个本质仍然是开发了大量上层的AI应用信息孤岛。
因此在类似MCP协议的东西出来后,其实是给大模型和企业之间搭建了一个资源和能力访问的中间层。这个中间层让大模型访问企业内部资源,数据库,文件,工具更加方便和容易。而企业要做的事情也很简单,就是遵循MCP协议标准开发不同类型的MCP Server将能力暴露出来即可。也就是我前面谈到的有了MCP,包括基于MCP形成了完整的生态体系后,大模型不再是被动的等待AI Agent调用,而是可以主动出击去访问需要的工具或资源。
3. 如何用AI的思路
我在前面更多在讲AI大模型本身能力的不断发展,这个技术发展的目标就是能够进一步解决复杂到复杂的这类问题。在其中涉及到及时信息的联网获取,私有知识库信息的获取,各种外部资源工具能力的获取,同时还得具备深度思考和推理能力,同时你的上下文感知能力还得不断加大,同时你训练或运行花费的算力成本最省。
所有大模型技术的发展基本就围绕上面的目标展开。
我上周去惠州CIO私享会交流提了一个问题,就是类似APS或MES系统里面的智能排程,或者类似识图填单这类应用算不算AI应用或AI赋能?其中大部分人认为这个也算AI赋能。
所以在这里一定要区分是广义的AI赋能还是LLM大语言模型赋能。对于企业面对的业务场景和真实需求,实际分为两类。
一类是内容生成类,比如方案的自动编写,会议纪要自动归纳整理,智能知识库问答等,这类场景核心是AIGC,同时没有明确规则约定。
一类是强规则约束类场景,比如智能排产,实际这是一个有明确强规则算法约定的,并不是AI可以随意去生成的。特别是传统的IT系统的应用场景里面,大部分都是这类强规则场景。
那么强规则场景是否就不能用AI?
注意这里仍然可以用AI,你用AI的目的是基于你明确的需求定义帮你生成严谨规则的算法代码。然后通过算法代码再去解决实际的问题。
上面这个图大家一定要看明白。即对于强规则类自动化问题,我们借助AI是先让AI基于我们的需求生成可自执行代码,然后基于代码程序再去解决同类型的问题,并得出精准答案。
那么我们实际应用LLM大模型的地方是在可执行代码生成上面。这也是我为何强调AI编程实际是解决复杂场景问题关键的一环,大模型自己写代码运行代码得到期望的输出。类似早期的GPT代码解释器,类似我前面讲过的豆包的数据分析功能,都是先生成代码再执行,最终得出解决答案。
所以大家一定要注意,强规则类场景不是不能用AI,用AI不是让你去生成五花八门,天马行空的答案,用AI的真正目的是帮你生成精确执行的代码。
当然,我们面对的仍然可能是真实的内容生成场景。类似帮我做一次完整的行程规划,或者帮我对某个上市公司进行完整的财务分析。
而这类场景的特点前面也讲了,处理需要具备联网搜索和获取外部资源工具的能力外,更加重要的是需要具备完整的需求感知,计划,执行,记忆能力。整个过程你可以通过AI智能体开发来实现。
那是不是每一个场景都需要开发一个AI智能体?
如果真按这个思路,那么在底层大模型上面就会衍生出大量的AI智能体应用,而每个AI智能体又变成了AI时代的信息孤岛。这也是为什么在MCP协议出来后,Google又推出让AI智能体之间互联互通的A2A协议的原因。
同时我们也看到很多智能体的编排越来越复杂,这个不亚于写一个软件功能应用的复杂度,很多编排节点还引入了脚本代码来进行处理。大家可以想下这么复杂的编排后续如何维护?
这也是我在前面文章一直谈,大模型应该逐步朝通用智能体能力发展的原因。不管是大模型内置通用智能体能力,还是类似Manus这种通用智能体都是可行的思路。
在这里了这个后,我们再回到通用AI智能体,如下图:
对于通用智能体跟我前面讲的最大的变化在哪里呢?
就是当你面对一个复杂的业务场景问题的时候,我不需要人为是人为手工的去编排,或者是开发这么一个特定的AI智能体,它是基于底层的通用规则算法,自动化的编写实现的这么一个智能体,而且他也不用专家经验的提前预测,所以大家从这个图里面就可以看到,你要做到这么通用化的智能体,它需要底层有强大的能力去做支撑,这些能力就包括了联网搜索行业知识库,互联网应用API行业特有的一些能力API接口,也包括了私有知识库、专家经验库,包括你要自己编程写算法,也包括了深度推理、自我检查和长周期的记忆。
那么在这些所有的通用化的底层能力支撑里面,最难的往往就是三个。
第一个我把它叫做行业特有能力API,这个实际上在国内,大部分你在公网其实是没有办法调用到合适的相关的API来解决你这个问题的。
第二个仍然叫行业的专家经验库,这个不是通用AI智能体它自己就能够解决的问题。需要有真正的行业经验专家库作为知识库RAG输入,或者有第三方来提供行业专家库的API能力接口供大模型调用。
第三个我把它叫做长周期记忆的能力,这个能力它本身是底层大模型的能力,实际也不是你AI智能体很容易的去解决的。虽然说这个智能体在编排的过程中,它可以挂自己的一些记忆库的小数据库,但是其实要去解决长周期记忆仍然是相当困难的事情。
4. AI自我学习,自我修复,自我进化
我个人在最近1年的时间,不是花费在对底层大模型技术的研究,更多的仍然是结合工作,学习场景,应该如何更好的用AI。其中包括了方案文档的编写,日常工作辅助,AI编程,自媒体文章写作等。
在整个AI应用过程中,最大的问题不是在于提示语不精确,而是和AI直接按的反复沟通和多轮迭代,在这个过程中每和AI交互一轮往往3,5分钟就没有了,你需要不断的调整和优化。虽然AI起到了效率提升的作用,但是绝对算不上效率提升能力的质变。
我们希望的是早上一上班后明确问题和场景输入,中午或下午下班的适合收货,这个才是我们真正需要的。但是这个就需要AI具备完整的自我学习,自我修复和自我进化能力。同时还需要你的问题和场景的精确描述和定义,当然还需要大模型本身的深度思考和推理能力足够强。
虽然在早期我们也尝试了通过AI Agent让AI自己完成多轮迭代,但是效果相当一般,原因就是你的验货准则本身就没有清晰定义。而且这个验收的过程没办法脱离人,否则AI输出的东西并不是你想要的。只要AI没有做到我只管一头一尾,那么我就没办法完全抽离出来做其它事情。这个就是当前AI提效遇到的关键问题所在。或者说的再不好听点,AI确实提效了,但是提效出来的时间节约变成了我碎片化发呆的时间。我看着类似GPT一个字一个字朝外吐,又无法离开,你还是时刻陪着它。
这也是我前面有篇文章谈到的企业内部所有能够流水线化的业务流程,都值得用AI智能体重新做一遍。
如何理解这句话?在企业的核心业务价值链和支撑性业务流程中,我们常常看到流水线作业。流水线作业的好处是将复杂的业务流程分解为多个业务活动,由不同的岗位角色完成,类似于软件企业的做法。
类似在整个软件生命周期中,我会将软件项目的交付分为需求分析、架构设计、概要设计、编码测试部署等多个环节。
在AI大发展的背景下,流水线作业最适合通过AI重做。重做的核心思路可以总结为:**所有流水线内部的业务活动都应实现自动化,而人只应关注流水线的一头一尾。**在流水线的头部提供足够的内容输入,包括规约和提示词;在流水线的末尾验证或评审AI工具的输出结果。内部流水线的所有业务活动都不应该再由人为干预。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。