《The Bitter Lesson》AI的苦涩教训:计算与通用方法的胜利

AI的苦涩教训:计算与通用方法的胜利

引言

在人工智能(AI)发展的70年历程中,强化学习(RL)领域的先驱Rich Sutton于2019年发表了《The Bitter Lesson》一文,提出了一个深刻而发人深省的观点:在AI研究中,依赖计算能力的通用方法最终总是最有效的,且优势显著。这一“苦涩的教训”源于对AI历史中反复出现的模式总结:研究者倾向于将人类知识嵌入系统以追求短期收益,但长期来看,基于搜索和学习的通用方法,通过规模化计算,总能带来突破性进展。这一教训不仅揭示了AI发展的核心驱动力,还对当前和未来的AI研究具有深远的启示。

本文将总结《The Bitter Lesson》的核心内容,结合从早期AI到现代大语言模型(LLM)的发展,分析其洞见,并探讨在当今AI“第二半场”背景下的意义。

原文链接:https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

《The Bitter Lesson》的核心内容

Sutton在文章中指出,AI研究的历史反复证明了一个规律:通用方法(general methods),尤其是那些能够利用计算能力的方法(如搜索和学习),在长期视角下远超基于人类知识的特定方法。这一规律的根本原因在于计算成本的指数级下降(广义的摩尔定律),使得计算资源在稍长的时间尺度内显著增加。然而,AI研究者往往假设计算资源是固定的,因此倾向于通过嵌入人类知识来提升性能。这种做法在短期内有效,但在长期却限制了进展。

Sutton通过多个领域的案例说明了这一“苦涩的教训”:

  1. 计算机国际象棋:1997年,IBM的Deep Blue通过大规模深度搜索击败了世界冠军卡斯帕罗夫。当时,许多研究者专注于利用人类对棋局结构的理解,试图减少搜索需求。然而,基于“蛮力”搜索的通用方法证明了其压倒性优势,引发了研究界的失望和争议。批评者认为这种方法缺乏“智能”,但事实证明,计算驱动的搜索才是长期的赢家。

  2. 计算机围棋:围棋领域的进展滞后了20年,但模式相似。早期研究试图利用人类知识或围棋的特殊结构来避免搜索,但最终AlphaGo通过深度搜索和自对弈学习(self-play learning)实现了突破。搜索和学习作为利用大规模计算的两种核心技术,再次证明了其威力。

  3. 语音识别:1970年代的DARPA语音识别竞赛中,基于人类知识(单词、音素、声带结构等)的方法与基于隐马尔可夫模型(HMM)的统计方法展开竞争。统计方法凭借更多计算和数据胜出,引发了自然语言处理(NLP)领域的范式转变。近年来的深度学习进一步减少了对人类知识的依赖,通过大规模计算和海量数据,显著提升了语音识别性能。

  4. 计算机视觉:早期视觉研究聚焦于边缘检测、广义圆柱体或SIFT特征等人类启发的概念,但现代深度学习神经网络(如卷积神经网络)仅依赖卷积和不变性(invariances)等简单原理,却取得了远超传统方法的表现。

Sutton总结了这一教训的几个关键点:

  • 人类知识的短期诱惑:将人类知识嵌入AI系统在短期内有效,且对研究者个人有满足感,但长期来看会限制进展,甚至阻碍突破。
  • 通用方法的长期优势:搜索和学习是两种能够随计算能力增长而无限扩展的通用方法。它们不依赖特定领域的知识,而是通过计算发现复杂模式。
  • 复杂性的本质:人类思维和外部世界的复杂性是无穷的,试图以简单的方式(如空间、对象、对称性)嵌入这些复杂性是徒劳的。AI应聚焦于“元方法”(meta-methods),即能够发现和近似复杂性的方法,而非直接嵌入人类已有的发现。
  • 发现的过程而非结果:AI的目标不是复制人类的知识,而是构建能够像人类一样发现知识的系统。嵌入人类发现的结果只会让发现过程变得更困难。

这一教训之所以“苦涩”,在于它挑战了研究者对“智能”本质的直觉。人类倾向于相信AI应该模仿自己的思维方式,但历史表明,真正的突破往往来自与人类直觉背道而驰的计算驱动方法。

洞见:计算驱动AI的过去与现在

1. 计算是AI进步的真正引擎

《The Bitter Lesson》的核心洞见在于,计算能力的增长是AI进步的根本驱动力。从Deep Blue的专用硬件到AlphaGo的TPU集群,再到现代LLM的万亿参数模型和海量GPU集群,计算规模的指数级增长不断重塑了AI的可能性。摩尔定律(或其广义形式)使得研究者在稍长的时间尺度内总能获得更多计算资源,而那些能够充分利用这些资源的通用方法,总是能超越依赖人类知识的特定方法。

以LLM的发展为例,ChatGPT(2022年)的成功离不开大规模语言预训练和RLHF(基于人类反馈的强化学习),而这些技术依赖于巨量的计算资源。Grok 3(2025年)进一步将计算规模推向新高度,其“think mode”和“DeepSearch mode”通过额外的计算(推理时间或迭代搜索)显著提升了复杂任务的表现。这些进展验证了Sutton的观点:计算不仅是工具,更是AI突破的本质

2. 通用方法的力量在于简化和扩展

搜索和学习作为通用方法的核心优势在于其简单性和可扩展性。它们不依赖特定领域的假设,而是通过计算发现通用模式。例如,Transformer架构的成功不仅在于其对NLP的优化,还在于其通用性——从文本到图像、从语言生成到强化学习,Transformer成为了一个“计算放大器”,能够适应各种任务。

相比之下,基于人类知识的方法往往过于复杂且难以扩展。例如,早期语音识别系统试图嵌入音素和声带结构的知识,但这些规则在面对语言的多样性和噪声时显得脆弱。HMM和深度学习通过统计建模和数据驱动,摆脱了这些限制,实现了更强的泛化能力。

3. 人类知识的陷阱

Sutton指出,嵌入人类知识的做法在短期内满足了研究者的心理需求,但长期来看却是一个陷阱。这种陷阱在LLM时代依然存在。例如,早期对话系统(如基于规则的聊天机器人)试图通过手工设计的对话模板模拟人类交流,但效果有限。ChatGPT的突破在于放弃了复杂的规则体系,转而通过大规模数据和计算学习语言的统计模式。

然而,人类知识的诱惑并未消失。当前的一些AI研究仍在试图通过嵌入领域知识(如医学、法律)提升模型性能。尽管这些方法在特定场景下有效,但它们往往增加了系统的复杂性,限制了模型在计算规模增长时的适应能力。Sutton的教训提醒我们:AI的未来在于发现而非复制,通用方法比特定知识更具潜力

4. 苦涩的接受:从对抗到拥抱

Sutton提到的“苦涩”不仅来自技术路线的失败,还来自研究者对通用方法的心理抗拒。在Deep Blue击败卡斯帕罗夫时,研究者批评其“蛮力”缺乏智能;在AlphaGo击败李世石时,类似的声音再次出现。然而,历史的车轮无情碾过这些抗议,证明了计算驱动方法的不可替代性。

在LLM时代,这种苦涩依然存在。例如,部分研究者认为ChatGPT的成功仅仅是“数据和算力的堆砌”,缺乏真正的智能。但Grok 3的多模态能力和推理能力的飞跃表明,计算规模的增长正在推动AI接近更广义的智能。接受这一现实需要研究者放下对“人类中心”智能的执念,拥抱计算驱动的范式。

《The Bitter Lesson》与AI“第二半场”的交汇

结合《The Second Half》(2025年, 笔者的博客分析:AI的第二半场:从方法突破到问题定义)的观点,Sutton的教训在AI的“第二半场”中尤为重要。《The Second Half》指出,AI的焦点正从“解决问题”(开发新方法)转向“定义问题”(重新设计评测体系)。这一转型与《The Bitter Lesson》高度契合:

  1. 评测的通用性:在第二半场,评测体系需要从孤立任务转向现实世界的复杂场景。Sutton的通用方法(如搜索和学习)为设计这类评测提供了基础。例如,Grok 3的“DeepSearch mode”通过迭代搜索模拟了现实世界的信息获取过程,体现了搜索作为通用方法的威力。

  2. 计算驱动的评测创新:传统评测(如MMLU、HumanEval)假设计算资源有限,强调模型的即时性能。然而,Sutton的观点表明,未来的评测应充分利用计算资源,测试模型在动态交互、长期记忆和跨领域任务中的表现。例如,tau-bench通过模拟用户交互,打破了i.i.d.假设,符合计算驱动的趋势。

  3. 效用问题的解决:《The Second Half》提出的“效用问题”源于评测与现实的脱节。Sutton的教训提示我们,解决这一问题不应依赖复杂的领域知识,而是通过通用方法(如搜索和学习)发现现实世界的复杂模式。例如,未来的AI助手可能通过自适应学习和大规模搜索,动态优化用户体验,而非依赖预定义的规则。

批判性思考:挑战与未来

尽管《The Bitter Lesson》提供了深刻的洞见,但其观点也引发了一些值得思考的问题:

  1. 计算的极限:摩尔定律的放缓和算力成本的上升可能限制通用方法的扩展。未来的AI研究需要在计算效率和规模之间找到平衡。例如,Grok 3的训练成本可能高达数亿美元,如何在有限资源下实现突破是一个现实挑战。

  2. 通用方法的边界:搜索和学习虽然强大,但并非万能。在某些高风险领域(如医疗、法律),通用方法可能因缺乏领域知识而产生不可靠的结果。如何在通用性和专业性之间找到平衡,是未来研究的方向。

  3. 伦理与社会影响:Sutton的文章未涉及计算驱动AI的伦理问题。LLM的大规模部署可能加剧数据隐私、偏见和能源消耗等问题。未来的评测体系需要纳入这些维度,确保AI的效用与社会责任相一致。

展望:拥抱计算,重新定义智能

《The Bitter Lesson》提醒我们,AI的未来不在于模仿人类的思维,而在于构建能够发现复杂模式的系统。搜索和学习作为通用方法的代表,将继续推动AI的边界。从ChatGPT到Grok 3,计算规模的增长已经重塑了AI的可能性,而在“第二半场”,重新定义评测体系将成为释放这一潜力的关键。

对于研究者和从业者而言,接受这一苦涩的教训意味着放下对“人类中心”智能的执念,拥抱计算驱动的范式。这不仅需要技术上的创新,还需要对AI目标的深刻反思。AI的终极目标不是复制人类的知识,而是创造能够像人类一样探索和发现的系统。让我们以计算为引擎,迎接AI的下一个70年。

后记

2025年4月19日于上海,在grok 3大模型辅助下完成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值