目录

🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 大语言模型走进了死胡同?
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
引言:AI江湖的“扫地僧”投下震撼弹
想象一个武林大会,所有门派都在为一套新练成的、威力无穷的剑法(比如大语言模型)而喝彩,认为它就是传说中的“天下第一武功”。就在此时,一位平日里深居简出、看似貌不惊人的藏经阁“扫地僧”却缓缓走出,告诉众人:“这套剑法,华丽有余,根基不稳,练到极致,也只是一个死胡同。”
在今天的人工智能领域,理查德·萨顿扮演的正是这样一个角色。

当OpenAI的GPT系列和Sora文生视频模型一次次刷新我们的认知,当科技巨头们豪掷千亿美金投入“算力军备竞赛”时,这位强化学习的奠基人、当年让AlphaGo击败李世石的核心理论贡献者,却给整个行业泼了一盆冷水。
他的言论,犹如平地惊雷,因为在很多人看来,OpenAI等公司疯狂堆砌算力和数据的做法,恰恰是受到了萨顿自己那篇著名文章《苦涩的教训》的启发。如今,这位“祖师爷”似乎亲手开始颠覆自己的“理论遗产”,这背后到底发生了什么?
一、核心论点:模仿得再像,也不是真正的理解
要理解萨顿的观点,我们必须先厘清一个核心区别:模仿人类(Imitation) 与 从经验中学习(Learning from Experience)。
在萨顿看来,今天所有的大语言模型,其本质都是在做一件事情:模仿。它们通过学习海量的人类文本数据,学会了预测“在给定的上下文中,人类最可能说的下一个词是什么”。它们是地球上最强大的“模仿者”和“复读机”,能够惟妙惟肖地模拟人类的语言、知识甚至推理风格。
但这并不是萨顿所追求的“智能”。他认为,真正的智能,核心在于从与环境的交互和反馈中学习。
我们可以用一个简单的比喻来理解:
(1)大语言模型:像一个学生,他把图书馆里所有的书都背了下来。你问他任何问题,他都能引经据典、对答如流。但他从未亲身实践过书中的任何知识,他对世界的理解,完全来自于这些二手文本。
(2)强化学习智能体:像一个婴儿,他从零开始学习走路。没人教他复杂的力学公式,他只是通过一次次尝试(行动)、摔倒(负反馈)、再站起来(修正),最终掌握了走路这项技能。他的每一点知识,都来自于与物理世界实打实的互动。
基于这个根本区别,萨顿指出了LLM的几个“致命缺陷”:
(1)没有真实的目标(No Real Goal):LLM的目标是“精准地预测下一个词”。这是一个关于“输出”本身的目标,而不是一个关于“外部世界”的目标。它无法改变世界,也无法从改变世界的结果中学习。而AlphaGo的目标则非常明确——“赢得围棋比赛”。为了这个目标,它可以探索、试错,甚至下出人类无法理解的“神之一手”。拥有一个真实世界的目标,是智能行为的起点。
(2)无法持续学习(No Continual Learning):LLM在经历昂贵的预训练之后,其知识和能力基本上就被“固化”了。它变成了一个静态的知识库。而真正的智能系统,应该像人一样,在与世界的持续互动中不断学习、进化和适应。它不会因为一次考试结束就停止成长。
(3)无法被“惊喜”到(Cannot be Surprised):一个真正的世界模型,应该能对未来做出预测,并在预测与现实不符时感到“惊讶”,然后修正自己的模型。LLM所谓的“预测”,只是预测人类会说什么,而不是预测世界会发生什么。当现实与它的输出不符时,它不会感到惊讶,也不会因此更新自己的世界观,因为它根本没有一个独立于文本之外的世界观。
总而言之,萨顿认为,我们真正想要的,是一台能从“一手经验”中学习的机器,而LLM本质上是在处理“二手经验”(人类留下的数据)。这是一条看似高效、实则天花板很低的路径。
二、重温“苦涩的教训”:我们又一次爱上了“聪明”的捷径
萨顿的观点并非心血来潮,而是源于他数十年AI研究生涯中反复观察到的一个规律,他将其总结在了2019年那篇著名的短文——《苦涩的教训》(The Bitter Lesson)中。
这篇“AI圣经”的核心思想可以概括为:
在人工智能领域,研究人员总是试图将自己对世界的“知识”和“理解”(比如人类的棋理、语法规则、图像特征)构建到AI系统中,这种方法在短期内总能取得不错的成果。然而,从长远来看,那些依赖大规模计算、利用通用学习算法(如搜索和学习)从零开始探索的方法,最终总是会超越那些依赖人类知识的“聪明”方法。
历史一再上演这个“教训”:
(1)国际象棋:人类花了数十年构建复杂的棋理知识库,但最终被IBM深蓝的暴力搜索(硬件+搜索算法)所击败。
(2)计算机视觉:研究者们手工设计了精巧的图像特征(如SIFT),但最终被AlexNet用海量数据和算力“炼”出的卷积特征(数据+学习算法)所超越。
(3)机器翻译:复杂的语法规则库,最终输给了Transformer架构的自注意力机制(算力+学习算法)。
“苦涩”之处在于,我们人类总是不愿承认,我们精心构建的、引以为傲的知识,在无穷的计算和原始的经验学习面前,显得如此渺小和脆弱。
那么,这和今天的大语言模型有什么关系呢?
在萨顿看来,大语言模型,正是“苦涩的教训”的最新、也是最宏大的一个案例。尽管它利用了前所未有的算力,但它的学习对象——互联网上数万亿的文本和图片——本质上是人类知识的终极集合。我们只是换了一种更高效的方式,把人类积累至今的所有“知识”都灌输给了机器。
这依然是在走“捷径”。萨顿预言,这条路很快会碰到天花板——高质量的人类数据终将被耗尽。届时,能够从纯粹的经验(而非人类数据)中学习、能自己创造数据的系统,将再次超越LLM,上演又一轮“苦涩的教训”。
三、从金融投顾看LLM的现实困境
萨顿的理论听起来有些抽象,但LLM在现实应用中的局限性,却能为他的观点提供有力的佐证。
以文章中提到的金融投资顾问为例。让LLM分析市场、推荐股票,看似是它的强项,因为它“读”过了所有的研报、新闻和财报。但实践中却困难重重:
(1)放大历史偏见:投资是关于未来的预测,但LLM只能从历史数据中学习模式。它会不自觉地强化和放大过去的成功策略(如追捧大盘蓝筹股),而对未来的结构性变化视而不见。
(2)缺乏前瞻性:它输出的结果,本质上是对现有报告和数据的重复、总结和提炼。当所有人都用同样的模型、同样的逻辑分析时,只会加剧市场的“共振”,而无法发现任何真正的前瞻性机会。
(3)被语言框架操纵:LLM无法分辨分析师报告中的“客观分析”和“营销话术”。它很容易被那些充满煽动性、吸引眼球但不完整的叙事(如将一家亏损公司描述为“技术颠覆者”)所影响,并把这种情感偏见传递给用户。
这些问题的根源,都指向了萨顿的核心论点:LLM没有一个基于现实世界的、可供验证的决策框架。它只是在语言的符号海洋里打转,无法真正理解这些符号背后的因果关系和动态变化。
四、通往真智能的另一条路
那么,如果LLM是“死胡同”,那条正确的路又在何方?
萨顿的答案清晰而坚定:回归强化学习的本源,构建能够从经验中学习的智能体。这条路的终极典范,正是AlphaGo Zero。
与它的前辈AlphaGo不同,AlphaGo Zero完全不依赖任何人类棋谱。它从零开始,只被告知了围棋的基本规则。然后,通过数百万次的自我对弈,它在不断的试错、探索和自我反馈中,独立地“重新发现”了围棋的规律,并最终达到了超越人类所有知识总和的水平。
这才是萨顿心中理想的智能范式:
(1)起点是目标,而非数据:先给系统一个明确的目标(赢棋)。
(2)过程是探索,而非模仿:让系统自己在环境中自由探索,尝试各种可能性。
(3)学习源自反馈,而非监督:通过结果的好坏(奖励或惩罚)来学习,而不是告诉它标准答案。
(4)知识是创造的,而非灌输的:系统自己生成知识,并拥有自我验证和迭代知识的能力。
萨顿认为,我们即将迎来“人类数据时代”的终点,下一步必然是进入“经验时代”。未来的AI,需要从“模仿人类”走向“探索物理和虚拟世界”。
结语:站在AI的十字路口
理查德·萨顿的警告,并非是要全盘否定大语言模型所取得的惊人成就。LLM作为一种强大的工具,已经并将在未来极大地改变我们的生活和工作。
然而,这场“路线之争”的真正意义在于,它迫使我们去思考一个更深层次的问题:我们当前所走的,是通往通用人工智能(AGI)的康庄大道,还是一个极其华丽、诱人,但最终会遇到瓶颈的岔路口?
萨顿就像那位孤独的守望者,提醒着狂热的人们:不要被眼前唾手可得的果实所迷惑,而忘记了真正的目标是种出能万古长青的智慧之树。或许,未来的答案并非非此即彼,而是两者的融合。但无论如何,他所强调的“经验”、“目标”、“持续学习”和“自我验证”,无疑是任何通往真正智能的道路上,都无法绕过的基石。
看到这里了还不给博主点一个:
⛳️ 点赞☀️收藏 ⭐️ 关注!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!





