今天的 AI 创业，正在重复《苦涩的教训》-CSDN博客

本文链接：https://blog.csdn.net/sinat_37574187/article/details/146680852

今天的 AI 创业，正在重复《苦涩的教训》

Founder Park Founder Park 2025年03月26日 20:15 北京

「RL 之父」Rich Sutton 在 2019 年发表的经典短文 The Bitter Lesson《苦涩的教训》广为人知，并且时不时被人提起。

「70 年的 AI 研究历史告诉我们一个最重要的道理：依靠纯粹算力的通用方法，最终总能以压倒性优势胜出。」

如今，似乎可以重新再聊下这个话题。

比如前两天我们发的 Agent 文章里的观点：未来 AI 智能体的发展方向还得是模型本身，而不是工作流（Work Flow）。

以及最近 Gemini 和 4o 更新的图片功能，可能直接取代了很多图片工作流——用自然语言对话完成现在复杂的 SD 图像生成工作流。

模型的通用能力，正在取代现在那些复杂的 Workflow。

今天编译的这篇文章，是作者 Lukas Petersson 听完 YC 100 多个项目路演后写下了一个有趣的观察：《苦涩的教训》中所写的 AI 研究历史似乎正在 AI 创业界重演。

作者介绍：Lukas Petersson，Andon Labs 的 CEO 兼联合创始人，专注 AI 安全评估和大语言模型研究。此前，他曾在 Google 实习，曾在 Disney Research 开发病毒式机器人，还曾参与探空火箭发射项目，担任项目主要负责人。

历史重演：

AI 创业在重复这个教训

太长不看版：

历史上，通用方法始终在 AI 领域占主导。
如今，AI 应用领域的创始人们正在重复 AI 研究人员过去犯过的错误。
更强大的 AI 模型将催生更多通用 AI 应用，同时也会削弱 AI 模型「套壳」软件的附加价值。

AI 技术的飞速发展带来了一波又一波新产品。在 YC 校友 Demo Day 上，我见证了 100 多个创业项目的路演。这些项目都有一个共同点：它们瞄准的都是简单问题，加了各种限制的 AI 就能解决。

但 AI 真正的价值在于它能灵活处理各类问题。给 AI 更多自由度通常能带来更好的效果，但现阶段的 AI 模型还不够稳定可靠，所以还无法大规模开发这样的产品。

这种情况在 AI 发展史上反复出现过，每次技术突破的路径都惊人地相似。如果创业者们不了解这段历史教训，恐怕要为这些经验「交些学费」。

2019 年，AI 研究泰斗 Richard Sutton 在他那篇著名的《苦涩的教训》开篇提到：

「70 年的 AI 研究历史告诉我们一个最重要的道理：依靠纯粹算力的通用方法，最终总能以压倒性优势胜出。」

那些精心设计的「专家系统」，最终都被纯靠算力支撑的系统打得落花流水。我们在语音识别、计算机象棋和计算机视觉中都看到了这种模式。这篇文章标题里的「苦涩」二字，正是来自这个在 AI 圈一演再演的剧情——从语音识别到计算机象棋，再到计算机视觉，无一例外。

如果 Sutton 今天重写《苦涩的教训》，他一定会把最近大火的生成式 AI 也加入这份「打脸清单」，提醒我们：这条铁律还没失效。

同在 AI 领域，我们似乎还没有真正吸取教训，因为我们仍在重复同样的错误...... 我们必须接受这个苦涩的教训：在 AI 系统中，强行植入我们认为的思维方式，从长远来看是行不通的。

这个「苦涩的教训」源于以下观察:

1. AI 研究者总想把人类的知识经验塞进 AI

2. 这招短期确实管用，还能让研究者有成就感

3. 但迟早会遇到瓶颈，甚至阻碍 AI 的进步

4. 真正的突破往往出人意料——就是简单地加大算力

站在 AI 研究者的角度，我们需要在总结教训的过程中明确了什么是「更好」的。对于 AI 任务，这很好量化——下象棋就看赢棋概率，语音识别就看准确率。对于本文讨论的 AI 应用产品，「更好」不仅要看技术表现，还要考虑产品性能和市场认可度。

从产品性能维度来看，即产品能在多大程度上取代人类的工作，性能越强，就能处理越复杂的任务，创造的价值自然也就越大。

图 1. 展示了不同类型的 AI 产品，本文主要讨论应用层

AI 产品通常是给 AI 模型加一层软件包装。因此，要提升产品性能，有两条路径：

1. 工程升级：在软件层面利用领域知识设置约束规则

2. 模型升级：等待 AI 实验室发布更强大的模型

这两条路看似都可行，但在此有个重要洞察：模型能力越强，工程优化的边际效益就越低。

现阶段，软件端的设计确实能提升产品表现，但这只是因为当前模型还不够完善。随着模型变得更可靠，只需要将模型接入软件就能解决大多数问题了——不需要复杂的的工程。

图 2. 投入工程的价值会随着投入增加和更强大模型的出现而递减

上图展示了一个趋势：随着 AI 模型的进步，优化工程带来的价值将逐渐减少。虽然当前的模型还有明显不足，企业仍能通过工程投入获得可观回报。

这一点在 YC 校友 Demo Day 上表现得很明显。创业公司主要分为两类：第一类是已经实现规模化的产品，专注解决简单问题，但数量还不多；第二类则瞄准了相对复杂的问题。后者目前发展势头不错，因为他们的概念验证证明：只要在工程上下足功夫，就能达到预期目标。

但这些公司面临一个关键问题：下一个模型发布会不会让所有工程上的都成为无用功，摧毁他们的竞争优势？OpenAI 的 o1 模型发布就很好地说明了这个风险。

我和很多 AI 应用层的创业者聊过，他们都很担心，因为他们投入了大量精力来完善提示词。有了 o1 后，提示词工程的重要性就大大降低了。

从本质上讲，这种工程的目的是为了让 AI 少犯错误。通过观察众多产品，可以概括为两类约束：

专业性：衡量产品的聚焦程度。垂直型产品专注于解决特定领域的问题，配备了专门的软件包装；而水平型产品则更通用，能处理多种不同类型的任务。
自主性：衡量 AI 的独立决策能力。在此借鉴一下 Anthropic 的分类：
- 工作流：AI 按预设路径运行，使用固定的工具和流程
- 智能体：AI 可以自主选择工具和方法，灵活决策如何完成任务

这就规定了一个 AI 产品的分类框架：

	垂类	通用
工作流	Harvey	ChatGPT
智能体	Devin	Claude Computer-Use

表 1. 对知名 AI 产品的分类。需要注意的是，ChatGPT 可能每次对话都会遵循预先设定的代码路径，因此更像工作流而非智能体

让我们以商业分析师制作路演 PPT 为例，看看每类产品如何实现这个任务：

垂类工作流：它按固定步骤执行任务，比如，先用 RAG 查询公司数据库，小型 LLM 做总结，大型 LLM 提取关键数据并计算，检查数据合理性，最后生成 PPT。每次都严格遵循这个流程。
垂类智能体：LLM 能自主决策，循环工作，用上一步的结果指导下一步行动，虽然可用工具相同，但由 AI 自己决定何时使用。直到达到质量标准才停止。
通用工作流：像 ChatGPT 这样的通用工具只能完成部分任务，既不够专业也不够自主，无法完整处理整个工作流。
通用智能体：例如 Claude computer-use，能像人一样操作常规办公软件。分析师只需用自然语言下达指令，它就能根据实际情况灵活调整工作方法。

Demo Day 上几乎所有产品都属于垂直工作流。这很好理解——当前的 AI 模型还不够成熟，只能用这种方式才能达到可用水平。结果就是，即使是过于复杂的问题，创业者