上周,深度学习领域的标志性人物吴恩达教授应邀在台湾发表了一场题为"AI, Agent and Application"的主题演讲。作为斯坦福大学教授和 DeepLearning.AI 的创始人,吴恩达在人工智能领域有着深远的影响力。
他不仅在技术研究上硕果累累,更创办了全球最具影响力的在线教育平台 Coursera,让优质的 AI 教育资源得以走进千家万户。而他创立的 AI FUND,则专注于人工智能领域的投资布局,使他得以在产业实践与学术前沿之间架起桥梁。正是这种跨界视角,让他对 AI 技术的思考格外珍贵而深邃。
下面我会着重讲述他的观点
AI 是新的生产力
他首先提出了一个重要的观点,即“AI 是一种新的电力”。
我的理解是,AI 是一种重要的资源,是一项通用的技术,将孕育出许多新的应用。过去我们说数据是一种新的生产力,基于数据的存储,加工和计算诞生了当下许多国民级的应用。例如抖音,微信、谷歌等等。
但 AI 的出现加速了数据加工的过程,AI 能够更好地理解结构化和非结构化的数据。AI 能够高效地从数据中发现规律,学习知识,进而转化为文字、图片和视频等媒介传递信息,更可怕的是AI还可以做决策和使用工具。
整个 AI 产业的结构
紧接着他介绍了整个 AI 行业的结构。
AI 产业的发展如同一座冰山,有着清晰的层级结构。在最底层,是支撑整个产业的半导体基础——以 GPU 为核心的计算硬件层。这个领域由英伟达主导,AMD 和英特尔紧随其后,他们不断推动着算力提升与成本优化的边界。
向上是云计算层,它让算力资源变得触手可及。越来越多的中小企业不再购置昂贵的物理设备,而是转向谷歌、亚马逊、微软 Azure 等云服务提供商,通过灵活的按需付费模式来训练和部署他们的模型。
浮出水面的是基础大模型层,这里是过去一年 AI 领域最耀眼的舞台。国际上有 OpenAI、Anthropic、谷歌、Meta 等领军者,国内则有字节跳动、百度、阿里等科技巨头,以及 KIMI、智谱、零一万物、MiniMax、面壁智能、DeepSeek 等新锐力量争相突围。
这些通用大模型虽然能力全面,但往往难以在具体场景中做到极致,这既源于其普适性的定位,也受限于缺乏细分问题的专注度。
因此,在大模型之上,一个新的编排层应运而生。从最早的 Dify 和 Coze,到后来的 n8n、Wordware、CrewAI 等,这些平台提供了可视化的编排画布,让开发者能够自如地设计工作流程,调用模型和插件,实现复杂的逻辑控制,从而解决特定领域的实际问题。
最上层是应用层,它可以直接构建在模型层之上,也可以借助编排层来提升开发效率。这一层虽然技术门槛相对较低,但却最接近实际价值创造,拥有最大的市场潜力和商业杠杆。若这里无法创造出超越底层投入的价值,那么整个产业链的资源投入都将失去意义。因此,应用层的创新与发展,正是检验整个 AI 产业成功与否的关键。
Agents 是最具潜力的方向
然后吴恩达介绍了他认为最具潜力的方向,Agents。Agents 就是多个智能体共同合作完成任务。
为什么 Agent 的地位如此重要呢?首先 Agent 的诞生最早是源于思维链,尤其是反思思维链。
所谓反思思维链,就是让模型在回答问题之前,先审视一下自己的答案,做一个评分,想想有哪些可以改进的点,最后再输出。
更进一步,如果 A 模型数据以后,不直接展示给用户,而是让 B 模型进行打分,想想有哪些可以改进的点。然后让 A 模型再改一版,再给 B 模型。如此循环几次后,答案就会比直接输出要好很多。
这个提升的幅度甚至比 GPT3.5 到 GPT4 还要大。
智能体不仅可以相互合作,智能体还能使用工具。比方说访问互联网,给一个环境执行代码,访问数据库,调用 API 等等。工具+工具,工具+模型的组合使得模型的能力进一步放大。
现在很多这样的组合,比如说大模型生成画图提示词,然后调用生图 API,一张图就水灵灵地出现了。
智能体还可以做到规划,规划就是把复杂的任务拆成一个个简单的小任务,然后一个个解决。这个其实目前一些具备推理能力的大模型也可以做到,比如说 O1。但 Agent 之间的配合,如果搭配上能思考的大模型,起到的作用可能进一步放大。
最后可以再畅想一下。现实生活中,一个公司下面有不同的部门,每个部门有许多不同的角色,每个角色承担着不同的任务。如果把角色换成 Agent,然后每个部门内多个 Agents 合作,最终部门之间的合作就是 Agents 之间的合作,一个人就是一家公司了。
五个 AI 发展的趋势
除了 Agents,吴恩达更是指出了 AI 的五个发展趋势,顺着这些趋势,可以去思考相关的机会。
-
AI 计算的速度会越来越快且越来越便宜。
-
AI 让创意验证的速度加快。很多应用背后仅仅是设计提示词然后部署它。这会改变创新的进程。
-
图像分析、理解和处理技术的更新,会带来很多新的应用。例如在制造、自动驾驶和安保领域。
-
数据传输的成本要远低于数据通过 AI 加工的成本
-
非结构化数据的数据工程变得更加重要。例如对文本、音频、视频数据的处理能力。
在 AI 发展的不同维度,我萌生了一些深入思考:
首先,随着 O1 等推理模型的出现,我意识到解决问题时不必过分计较 AI 当前的成本和速度。这些技术瓶颈必将随时间推移而逐步突破,重要的是保持开放和想象的胸怀。
其次,技术进步正在加速个性化需求的精细满足。在产品探索中,我们应该突破思维定式,不再拘泥于点子的大小,而是以开放、敏捷的姿态不断铺开,快速验证,专注于解决一个又一个看似微小但实际意义重大的具体问题。
再者,图像识别和分析正展现出令人惊叹的广阔前景。继"胃之书"计算卡路里、AI 挑选榴莲等创新应用之后,我们可以进一步想象:比如开发一款店铺人流分析工具。
传统方案仅能通过物体识别检测人数,而大模型则可以实现更精细的洞察——精准判断顾客性别、推断年龄层次、识别是家庭出游还是情侣约会等。
第四个洞见关乎数据壁垒。过去,拥有大量用户数据被视为核心竞争力。然而如今,数据迁移的成本相较计算开支已变得微不足道。
值得注意的是,OpenAI 的 token 费用远高于数据传输成本。若某个平台能显著降低数据分析计算成本,并提供卓越的计算能力,用户迁移数据将不再是障碍。
最后,我们回到数据本身。AI 渴求大量优质数据,尤其是非结构化的内容——图片、文本、音频、视频等。这些数据蕴含着巨大的训练价值,但处理工程浩大。值得关注的是,已经出现了专门的公司致力于 OCR 等数据转化,将非结构化信息转化为可用的问答数据。
AI 带来了企业合作领域的创新
新的合作范式也许是这样的:
- 有一个想法
比如一家从事海运的传统公司 MITSUI 认为 AI 可以通过查看全球航运、天气、洋流等数据优化船舶航行的方式,提高燃油效率。
- 想法验证(第 1 个月)
AI FUND 会用一个月的时间来研究一个想法,验证市场并且证明技术可行性。
- 聘请 CEO(第 2 个月)
然后在市场上寻找合适的 CEO 人选,创立公司。并且和 AI FUND 一起验证想法。
搭建核心团队(第 3 个月)
创始人团队需要在内构建初步技术原型,进行更加深度的市场调研和技术验证。
- 执行落地(第一年)
AI FUND 会投资 100 万美金作为前种子轮,来聘请关键执行层,打造 MVP,获得初期的用户反馈。
- 规模化放大(持续运转)
如果顺利的话,会攒一波 200-500 万美金的种子轮,这时最开始的 MITSUI 会参投。并且它不需要雇佣和管理一只 AI 团队,通过合作和投资参与公司的构建,最终可以低成本地把技术应用的自己的业务中来。
在AI产品探索的道路上,我悟到了两个至关重要的洞见。
首先,最富价值的创新往往源于真实业务场景中那些被忽视的具体需求。理想的产品孵化路径是:从一个清晰、明确的痛点出发,与需求方紧密协作,共同精雕细琢,在实际业务环境中率先落地。
唯有深入到具体场景,才能真正理解问题的本质。当这个解决方案被验证有效,且具备一定的行业普适性时,再将其提炼为标准化的产品对外销售。这是一种自下而上的创新模式,确保了产品的实用性和市场价值。
其次,公司架构和激励机制的设计至关重要,它们是创新文化的基石。
在项目伊始就精心设计组织架构和收益分配方案,不仅能最大限度地激发团队的主动性,还能从根本上避免后续可能的利益纷争。
一个科学合理的激励体系,应当充分尊重每一位贡献者,明确权责边界,让每个人都能清晰地看到自身的价值和发展空间。
这两个维度共同构成了一个成功的AI产品孵化生态:以需求为导向的创新,配以合理的组织激励机制。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。