美国安全与新兴技术中心：中国学界对大模型的批判性思考与通用人工智能的多元路径探索...

最新推荐文章于 2025-05-24 15:58:27 发布

人工智能学家

最新推荐文章于 2025-05-24 15:58:27 发布

阅读量576

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2650028114&idx=3&sn=f7e873d0d46a8906487f642ae5f7e385&chksm=8ecccea86fa8730c7dfba0aeb48931434ff735d16eee5071792a7ad9dfe2de19e2dde8e84e93&scene=126&sessionid=0

版权

“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。（点击这里查看欧米伽理论）

来源：欧米伽未来研究所

报告简介

美国安全与新兴技术中心发布的报告《论大模型：中国学界对大语言模型的批判性思考与通用人工智能的多元路径探索》，聚焦大语言模型（LLMs）与通用人工智能（GAI）的发展，对比分析了中美在该领域的研究差异。

LLMs 因能生成类人回复而备受瞩目，吸引大量投资，被部分人视作通向 GAI 的途径。然而，它存在诸多缺陷，如推理能力不足，在基础数学运算中表现欠佳；容易产生幻觉，生成错误信息；依赖大规模数据和计算资源，成本高昂。而且，其在泛化、抽象思维、创造能力等方面也存在明显短板。

中国在 AI 发展上采取多元化策略。顶尖科学家对 LLMs 通向 GAI 的能力普遍持怀疑态度。唐杰强调机器智能需 “具身于世界”，仅靠规模法则难以实现 GAI；张亚勤指出 LLMs 计算效率低、无法理解物理世界等问题；朱松纯更是直言基于大数据的 LLMs 无法实现类人认知。中国政府也积极支持探索替代路径，北京、海淀等地政府分别出台政策，鼓励发展类脑智能、具身智能等。

从学术成果来看，中国学者针对 LLMs 的缺陷进行了大量研究。通过对中英文文献的筛选与分析，发现众多论文涉及解决 LLMs 在推理、学习新任务、具身性等方面的问题，并提出了添加模块、模拟大脑结构、强化测试标准等多种解决方案。

相比之下，西方商业利益对 LLMs 的过度追捧，阻碍了其他 GAI 研究路径的探索。而中国多路径探索、国家战略支持以及注重价值融入的研究方式，有望在 GAI 竞争中占据优势。报告最后建议美国政府调整策略，支持多元化的 GAI 研究，并密切关注中国 AI 技术的发展动态，以保持在全球 AI 领域的竞争力。

1.引言：生成式人工智能与通用人工智能

实现通用人工智能（GAI），即人工智能在广泛的任务中复制或超越大多数人类认知技能，如图像 / 视频理解、持续学习、规划、推理、技能转移和创造力，是中美两国激烈研究努力的关键战略目标。

国际科学界对于哪条路径能最快通向通用人工智能，以及哪些路径可能是错误的开端，存在激烈的争论。在美国，大语言模型主导了相关讨论，但它们实现通用人工智能的能力仍存在疑问。由于选择错误的路径可能使美国处于战略劣势，因此审视其他国家可能正在探索的替代方法变得更加紧迫。

在美国，许多专家认为，随着 OpenAI 的 o1、谷歌的 Gemini、Anthropic 的 Claude 和 Meta 的 Llama 等新版本大语言模型的推出，向通用人工智能的变革性一步将会到来。另一些人则指出，大语言模型持续存在的 “幻觉” 等问题表明，再多的计算能力、反馈或多模态数据源都无法让大语言模型实现通用人工智能。还有一些人工智能科学家认为，大语言模型在通用人工智能平台中可以发挥作用，但不是唯一的，甚至不是主要的组成部分。

思考如何实现通用人工智能这一问题很重要，因为它关系到开发者在追求人工智能这一传统 “圣杯”（人类水平的智能）时可选择的方案。通向通用人工智能的道路，是否是大语言模型发展的延续，并可能通过添加额外模块来增强？或者大语言模型是一条死胡同，需要采用其他基于更紧密模拟人类认知和大脑功能的、根本不同的方法？

鉴于大语言模型的成功、投资规模、备受尊敬的人工智能科学家的支持、实际应用案例带来的乐观情绪，以及在企业对现有模型投入巨大的情况下重新构想新方法的难度，人们很容易忽视依赖基于单一研究范式的 “单一文化” 所带来的风险。如果大语言模型所能提供的成果存在局限性，在没有足够多样化的研究组合的情况下，西方公司和政府能否找到其他解决方案，克服大语言模型的问题，作为通向通用人工智能的路径，这一点尚不清楚。

多样化的研究组合正是中国为实现 “通用人工智能” 这一国家资助目标所采取的方法。本报告将展示，除了中国在开发类似 ChatGPT 的大语言模型方面付出的巨大努力外，中国的科学家们还将大量资源投入到通往通用人工智能的替代路径上，他们对 “大数据、小任务” 方法实现人类能力的潜力深感担忧。

因此，本文旨在解决两个问题：中国科学家对大语言模型作为通向通用人工智能的路径有哪些批评？中国如何应对大语言模型的这些所谓缺点？

本文首先（在第 1 部分）介绍了非中国的杰出人工智能科学家对大语言模型及其支持通用人工智能能力的批评。这一部分为理解中国科学家对大语言模型的观点（第 2 部分，源自网络资料）提供了背景。第 3 部分引用了相关研究，支持中国公开宣称的大语言模型不是通向通用人工智能可行路径的观点。在第 4 部分，我们对这些观点进行评估，作为第 5 部分提出建议的基础，即为何必须认真对待中国的替代项目。

2.大语言模型及其批评者

“大语言模型” 这个术语包含两个事实：它们是大型网络，通常拥有数十亿到数万亿个参数，并且是在从互联网和其他来源获取的数万亿字节文本的自然语言上进行训练的。大语言模型和神经网络一般在类型上与 “传统的”（GOFAI）符号人工智能不同，后者依赖基于规则的编码。此外，如今的大型模型能够在不同程度上处理多模态输入和输出，包括图像、视频和音频。

大语言模型于 2017 年首次亮相，当时谷歌工程师提出了一种名为 Transformer 的神经网络架构，该架构经过优化，通过学习 “关注” 训练语料库中 “词元”（单词或单词的一部分）之间的共现关系来寻找文本序列中的模式。与人类知识不同，大语言模型中捕获的知识不是通过与自然环境的交互获得的，而是依赖于从序列中词元之间的位置关系得出的统计概率。在训练过程中大量接触语料库，使大语言模型能够识别规律，总体而言，这些规律可用于在训练后生成对人类提示的回复。因此，OpenAI 的产品名为 “GPT”（生成式预训练 Transformer）。

大语言模型 “融合” 不同信息来源的能力（这发挥了神经网络在模式匹配和揭示复杂空间中相似性方面的传统优势），使其在文本摘要、翻译、代码编写和定理证明等不同领域得到了应用。

然而，通过寻找和利用规律的这种能力是否足以实现通用人工智能，一直存在激烈的争论。最初关于大语言模型 “有感知能力” 的热情报道，越来越多地被显示大语言模型在理解语言和像人类一样推理的能力方面存在严重缺陷的报道所补充。

大语言模型在一些方面存在持续的缺陷，比如基础数学运算，不过这些问题似乎可以通过插件来纠正，即针对大语言模型薄弱领域的外部程序。事实上，这种由专门用于认知不同方面的系统组成的网络方法，更像是大脑，大脑有专门的模块，例如用于情景记忆、数学、推理等，而不像大语言模型那样是单一的过程。

一些科学家希望，仅增加复杂性就可能有助于克服大语言模型的缺陷。例如，杰弗里・辛顿（Geoffrey Hinton）相信伊利亚・苏茨克弗（Ilya Sutskever，OpenAI 的前首席科学家，曾与辛顿一起学习）的一种直觉，认为规模将解决其中的一些问题。在这种观点中，大语言模型已经凭借其 “预测下一个符号的能力进行推理，而预测是关于大脑如何学习的一个相当合理的理论”。事实上，从 GPT-2 到 GPT-4，复杂性的增加导致了在各种基准测试任务上性能的提升，比如在 “心理理论”（对心理状态的推理）任务中，GPT-3.5 存在缺陷，而 GPT-4 有所改进。

其他一些缺陷则更难解决，尽管模型复杂性增加，这些问题仍然存在。具体来说，“幻觉”，即大语言模型做出错误的断言（这是神经网络固有的问题，神经网络旨在进行插值，并且与大脑不同，它不会将事实的存储与插值分开）和推理错误一直难以克服。最近的研究表明，错误 / 幻觉答案的可能性会随着模型复杂性的增加而增加。

此外，通过增加模型复杂性，期望在跨越某个计算阈值后出现新颖的、质的不同的 “涌现” 行为的策略，也受到了研究的质疑。研究表明，之前在更大模型中观察到的 “涌现” 行为是所用指标的人为产物，并不表明模型性能有任何质的变化。相应地，尽管模型复杂性在增加，但近期文献中关于大语言模型 “涌现” 的说法却在减少。

事实上，人们有理由担心，大语言模型在标准化测试中的高表现，更多地可归因于神经网络众所周知的模式匹配能力，而非发现了新的策略。

对大语言模型的其他批评集中在基本的认知和哲学问题上，如泛化能力、形成深度抽象的能力、创造能力、自我指导能力、对时间和空间进行建模的能力、常识、对自身输出的反思能力、处理模糊表达的能力、基于新信息进行遗忘的能力、评估正反观点（做出决策）的能力以及把握细微差别的能力。

虽然这些缺陷在西方研究文献中有所讨论，还有其他问题，如大语言模型在不重新训练基础模型的情况下，难以在上下文窗口之外轻松添加知识，以及大语言模型训练的高计算和能源需求，但目前人工智能领域的大多数商业参与者（如 OpenAI、Anthropic）仍在继续沿着这条道路前进。问题不仅在于 “我们正在投资一个可能无法实现的理想未来”，而且用谷歌人工智能研究员弗朗索瓦・肖莱（François Chollet）的话来说，“大语言模型吸走了房间里的氧气。每个人都只在研究大语言模型”。

3.中国对大语言模型作为通向通用人工智能路径的看法

对中国顶尖人工智能研究机构的资深科学家的言论进行回顾后发现，他们对大语言模型自身通向通用人工智能的能力高度怀疑。这些批评与国际专家的观点相似，这是因为两组人都面临相同的问题，并且中国的人工智能专家与全球同行之间的交流是常态。

以下是几位中国科学家对大语言模型作为通向通用人工智能路径的看法。

唐杰是清华大学计算机科学教授、智谱的创始人、北京智源人工智能研究院的领军人物，也是几款国产大语言模型的设计者。尽管他在统计模型方面取得了成功，但唐杰认为，达到人类水平的人工智能要求模型 “融入世界”。虽然他认为规模法则 “还有很长的路要走”，但仅凭这一点并不能保证实现通用人工智能。一条更有成效的道路是从生物学中获取线索。用他的话说：“通用人工智能或基于大模型的机器智能不一定非要与人类大脑认知机制相同，但分析人类大脑的工作机制可能会更好地启发通用人工智能的实现。”

张亚勤是微软亚洲研究院的联合创始人、百度前总裁、清华大学智能产业研究院创始院长以及北京智源人工智能研究院顾问。张亚勤指出大语言模型存在三个问题，即计算效率低、无法 “真正理解物理世界” 以及所谓的 “边界问题”，即分词问题。张亚勤（与戈策尔一起）认为，“我们需要探索如何将大型生成概率模型与现有的（物理世界的）‘第一原理’或真实模型和知识图谱相结合”。

黄铁军是北京智源人工智能研究院的创始人和前院长，也是北京大学人工智能研究院副院长。黄铁军提出了通向通用人工智能的三条路径：基于大数据和大规模计算的 “信息模型”、通过强化学习训练的 “具身模型” 以及北京智源人工智能研究院重点投入的大脑模拟。黄铁军认同大语言模型的规模法则将继续发挥作用，但他补充说，“不仅需要收集静态数据，还需要实时获取和处理多种感官信息”。在他看来，通用人工智能依赖于将统计模型与受大脑启发的人工智能和具身智能相结合，也就是说：大语言模型代表 “基于大数据的静态涌现”。相比之下，受大脑启发的智能基于复杂的动力学。具身智能也有所不同，它通过与环境的交互产生新的能力。

徐波是中国科学院大学人工智能学院院长、中国科学院自动化研究所所长，蒲慕明是中国科学院脑科学与智能技术卓越创新中心主任，他们认为具身性和环境交互将促进大语言模型向通用人工智能发展。尽管大语言模型所依赖的人工神经网络受到生物学的启发，但它们通过添加 “更多的神经元、层和连接” 来扩展，并没有开始模拟大脑中神经元类型的复杂性、选择性连接和模块化结构。特别是，“计算成本高昂的反向传播算法…… 可以通过符合生物学原理的学习算法来改进甚至取代”。这些候选算法包括脉冲时间突触可塑性、“依赖神经调质的元可塑性” 以及 “设定突触权重变化稳定性的短期与长期记忆存储规则”。

朱松纯是北京大学人工智能研究院院长、北京通用人工智能研究院院长，他创立北京通用人工智能研究院的前提是，基于大数据的大语言模型在模拟人类水平认知的能力方面是一条死胡同。朱松纯直言不讳地表示：“实现通用人工智能是人工智能研究的初衷和最终目标，但基于现有大模型继续扩大参数规模无法实现通用人工智能。” 朱松纯将中国大语言模型的成就比作 “攀登珠穆朗玛峰”，而真正的目标应该是登上月球。在他看来，大语言模型 “本质上无法解释，存在数据泄露风险，没有认知架构，缺乏因果和数学推理能力，以及其他限制，因此它们无法通向‘通用人工智能’”。

曾毅是中国科学院自动化研究所类脑认知智能实验室主任、国际人工智能伦理与治理研究中心创始主任，他正在构建一个基于时变脉冲神经网络的通用人工智能平台。用他的话说：“我们的类脑认知智能团队坚信，只有模仿人类大脑的结构及其智能机制，以及自然进化的规律和机制，才能实现对人类真正有意义和有益的人工智能。”

中国其他人工智能科学家对大语言模型的批评数不胜数。

沈向洋是前微软执行副总裁、北京大学人工智能研究院学术委员会主任，他感叹人工智能研究对 “智能的本质” 没有清晰的认识。沈向洋支持他归因于纽约大学名誉教授、大语言模型批评者加里・马库斯（Gary Marcus）的一种观点，即 “无论 ChatGPT 如何发展，目前的技术路线都无法给我们带来真正的智能”。

郑庆华是同济大学校长、中国工程院院士，他指出大语言模型存在重大缺陷：它们消耗过多的数据和计算资源，容易出现灾难性遗忘，逻辑推理能力较弱，并且不知道自己何时出错以及为何出错。

李武是北京师范大学认知神经科学与学习国家重点实验室主任，他表示相信 “目前的神经网络相对专业化，不符合人类大脑的工作方式。如果你一味地炒作大模型本身，只关注参数从数十亿或数百亿扩展到数千亿，你将无法实现真正的智能”。

中国国家和市政府的声明也表明，人们认识到需要用通向通用人工智能的替代路径来补充大语言模型研究。

2023 年 5 月 30 日，北京市政府（中国许多面向通用人工智能的大语言模型研究都在其辖区内进行）发布声明，呼吁发展 “大模型等通用人工智能技术体系”。该声明的第三部分有五个项目（7 - 11），前四个与大语言模型相关（算法、训练数据、评估以及基础软硬件系统）。第 11 项内容为 “探索通用人工智能的新路径”，并呼吁：开发通用人工智能的基础理论体系、自主协作与决策、具身智能和类脑智能，由统一的理论框架、评级和测试标准以及编程语言提供支持。具身系统（机器人）将在开放环境、通用场景和连续任务中进行训练。

该计划还要求：“支持对类脑智能的探索，研究大脑神经元的连接模式、编码机制、信息处理等核心技术，并启发新的人工神经网络建模和训练方法。”

2024 年 3 月，中国科学院副院长吴朝晖（曾任中国科技部副部长、浙江大学校长）在国家层面提到了大语言模型的替代方案。他表示人工智能正在朝着 “大小模型协同” 发展，并补充说中国必须 “多路径地探索通用人工智能发展”。这些路径包括 “具身智能、分布式群体智能、人机混合智能、增强智能和自主决策”。

次月，北京市海淀区政府（辖区内有 1300 家人工智能公司，其中 90 多家正在开发大语言模型）发布了一项为期三年的计划，以促进具身人工智能的研究。该计划将 “具身性” 定义为 “智能系统或机器通过感知和交互实时与环境进行交互的能力”，并旨在作为全国发展的平台。其具体内容包括通过复制大脑功能来推动人形机器人的计划。

我们对政府机构的公开声明和中国顶尖人工智能科学家言论的分析表明，中国人工智能领域中有影响力的一部分人，与西方对大语言模型的批评者一样，对大语言模型存在担忧，并在寻求通向通用人工智能的替代路径。

4.中国学术记录显示了什么？

科学家的公开声明是衡量中国对通用人工智能态度的一个指标。另一个指标是他们的学术成果记录。此前对中国技术文献的回顾表明，中国正在通过多种方式追求通用人工智能，包括生成式大语言模型、受大脑启发的模型，以及通过脑机接口增强认知。我们目前的任务是在文献中寻找证据，证明中国学者除了认识到基于大脑的模型的积极特征之外，还因大语言模型的缺点而被驱使去寻找替代路径。

为此，我们在 CSET 的合并语料库中，用中文和英文对 “AGI/GAI + LLM” 及其常见变体进行关键词搜索，查找 2021 年或之后发表的、主要由中国作者撰写的论文。共获得约 35 篇文档。通过网络搜索的单独查询又找到了 43 篇论文。在这 78 篇论文中，有 15 篇被该研究的首席分析师认为与主题无关而被剔除。其余 63 篇论文由该研究的主题专家进行审查，专家突出了以下 24 篇论文，作为中国研究解决大语言模型问题的实例，这些问题阻碍了大语言模型实现与通用人工智能相关的通用性。

曹博西、韩先培、孙乐，《Can Prompt Probe Pretrained Language Models? Understanding the Invisible Risks from a Causal View》，arXiv 预印本 arXiv:2203.12258v1（2022 年）。
程兵，《以 ChatGPT 为代表的大语言模型打开了经济学和其他社会科学研究范式的巨大新空间》，《计量经济学报》第 3 卷，第 3 期（2023 年 7 月）。
程岱宣、黄少涵、韦福如，《Adapting Large Language Models

程岱宣、黄少涵、韦福如，《通过阅读理解使大语言模型适应特定领域》，arXiv 预印本 arXiv:2309.09530v4（2024 年）。
丁宁、郑海涛、孙茂松，《大规模预训练语言模型的参数高效微调》，《自然机器智能》，2023 年 3 月。
董青秀、穗志方、李磊，《上下文学习综述》，arXiv 预印本 arXiv:2301.00234v4（2024 年）。
黄江勇、雍子隆、黄思远，《3D 世界中的具身通用智能体》，《第 41 届国际机器学习会议论文集》，奥地利维也纳，PMLR 235，2024 年。
金飞虎、张家俊，《统一提示学习使预训练语言模型成为更好的少样本学习者》，《IEEE 国际声学、语音和信号处理会议》，2023 年 6 月。
李珩立、朱松纯、郑子隆，《DiPlomat：用于情境语用推理的对话数据集》，《第 37 届神经信息处理系统会议》（NeurIPS 2023）。
李佳琪、郑子隆、张牧涵，《LooGLE：长上下文语言模型能理解长上下文吗？》，arXiv 预印本 arXiv:2311.04939v1（2023 年）。
李元春、张亚勤、刘云新，《个人大语言模型智能体：关于能力、效率和安全性的见解与综述》，arXiv 预印本 arXiv:2401.05459v2（2024 年）。
马煜曦、朱松纯，《缸中之脑：大语言模型通向通用人工智能缺失的环节》，arXiv 预印本 arXiv:2307.03762v1（2023 年）。
尼博琳、彭厚文、陈明浩、张宋扬、凌海滨，《扩展语言 - 图像预训练模型用于通用视频识别》，arXiv 预印本 arXiv:2208.02816v1（2022 年）。
彭玉佳、朱松纯，《通测试：通过动态具身物理和社会交互评估通用人工智能》，《工程》34 卷（2024 年）。
申国斌、曾毅，《用于脉冲神经网络的类脑神经回路进化》，《美国国家科学院院刊》39 卷（2023 年）。
唐晓娟、朱松纯、梁一韬、张牧涵，《大语言模型是上下文语义推理器而非符号推理器》，arXiv 预印本 arXiv:2305.14825v2（2023 年）。
王俊淇、彭玉佳、朱毅鑫、范丽凤，《评估和建模社会智能：人类与人工智能能力的比较研究》，arXiv 预印本 arXiv:2405.11841v1（2024 年）。
徐方植、刘军、埃里克・坎布里亚，《大语言模型真的是优秀的逻辑推理器吗？》，arXiv 预印本 arXiv:2306.09841v2（2023 年）。
徐智昊、戴琼海、方璐，《大规模光子小芯片太极赋能 160 - TOPS/W 通用人工智能》，《科学》，2024 年 4 月。
袁路遥、朱松纯，《交际学习：一种统一的学习形式》，《工程》，2023 年 3 月。
张驰、朱毅鑫、朱松纯，《通过极小极大熵学习实现人类水平的少样本概念归纳》，《科学进展》，2024 年 4 月。
张铁林、徐波，《一种受大脑启发的算法，可降低人工和脉冲神经网络的灾难性遗忘且计算成本低》，《科学进展》，2023 年 8 月。
章岳、崔乐阳、史树明，《人工智能海洋中的塞壬之歌：大语言模型幻觉综述》，arXiv 预印本 arXiv:2309.01219v2（2023 年）。
赵卓雅、曾毅，《一种受大脑启发的心理理论脉冲神经网络改善多智能体合作与竞争》，《模式》，2023 年 8 月。
邹旭、杨植麟、唐杰，《通过反向提示从预训练语言模型实现可控生成》，arXiv 预印本 arXiv:2103.10685v3（2021 年）。

这些研究共同探讨了本文第 1 和第 2 部分中描述的一系列大语言模型缺陷，即与心智理论（ToM）失败相关的问题、归纳、演绎和溯因推理缺陷、通过类比先前任务学习新任务的问题、缺乏基础 / 具身性、错误和幻觉的不可预测性、缺乏社会智能、对现实世界输入（特别是视频形式）的理解不足、处理更大上下文的困难、与微调输出需求相关的挑战以及操作成本。

针对这些问题提出的解决方案包括添加模块、模拟大脑结构和过程、制定严格的标准和测试、在现实世界中嵌入，以及直接用改进的芯片类型替换计算基板。

本研究第 2 部分中引用的几位著名中国科学家，他们公开支持替代通用人工智能模型，包括唐杰、张亚勤、徐波、朱松纯和曾毅，他们是其中许多论文的作者，这为他们的声明增添了可信度。

此外，几乎所有参与通用人工智能研究的中国顶尖机构和公司，包括北京智源人工智能研究院、北京通用人工智能研究院、中国科学院自动化研究所、北京大学、清华大学、中国科学院大学，以及阿里巴巴、字节跳动、华为和腾讯人工智能实验室，都在所选的论文集中有所体现，在大多数情况下，它们有多篇论文被收录。

此处引用的元数据记录以及 CSET 先前研究得出的结论支持了本研究的观点，即中国人工智能领域的主要力量质疑大语言模型通过规模或模态扩展实现通用人工智能的潜力，并正在考虑或探索替代路径。

5.评估：条条大路通罗马吗？

当基于大语言模型的聊天机器人首次问世时，早期关于大语言模型可能具有感知能力（即能够体验感觉和知觉），甚至展现出自我意识的说法盛行，并引发了广泛讨论。从那以后，人们逐渐回归理性，关注点从对大语言模型内在 “精神生活” 的哲学猜测，转向对其在 “智能” 行为关键指标上能力的更具体衡量，以及大语言模型是否有能力实现通用人工智能（GAI）这一具有战略重要性的问题。

虽然意识和情感能力对于通用人工智能是否至关重要仍远未明确，但可以确定的是，一个通用人工智能系统必须具备推理能力，以及区分事实与幻觉的能力。就目前情况而言，大语言模型没有明确机制来执行这些智能行为的核心要求。相反，大语言模型的拥护者希望，在训练大语言模型以更好地预测对话中的下一个词的过程中，推理能力会以某种方式 “涌现”。然而，这种观点缺乏理论依据。相反，研究表明，大语言模型庞大的文本记忆掩盖了其推理方面的缺陷。

启发式地尝试提高推理能力（例如思维链），可能是 OpenAI 新的 “o1” 大语言模型性能提升的基础，而诸如 “重新表述并回应”“思维树” 或 “思维图” 等更新的方法也取得了一定改进，但都未能解决缺乏核心 “推理引擎” 这一根本问题。

同样，多次尝试解决大语言模型的幻觉问题都陷入了困境，因为这些尝试未能解决大语言模型从训练数据泛化到新情境时固有的核心问题。实际上，目前提高推理能力和解决幻觉问题的努力，有点像玩 “打地鼠” 游戏，但地鼠隐藏在十亿维的权重空间中，而且用来打的锤子也不一定能击中目标。由此产生的系统可能在人类能够评估大语言模型输出质量的场景中足够用，例如撰写求职信、设计旅行行程或创作高中教师们常布置的作文题目。然而，这些能力与通用人工智能相去甚远。

在西方世界，关于通向通用人工智能的恰当路径的公开辩论，往往被那些在推广其最新大语言模型时宣称具有 “类人智能” 或 “通用人工智能的火花” 的商业利益公司所淹没，即便大语言模型的缺点越来越明显，正如第 1 部分所详述的那样。将大语言模型视为通向通用人工智能的必然路径的商业利益主导地位，已经对美国学术研究探索通用人工智能替代方法的能力产生了负面影响。

中国的情况则有所不同。虽然中国也有公司出于商业目的开发大语言模型，但正如本文所详述的，中国顶尖的人工智能科学家和政府官员意识到，大语言模型存在根本性的局限性，因此研究通向通用人工智能的其他方法，或使用 “类脑” 算法补充大语言模型的性能非常重要。后者，即追求 “受大脑启发” 的人工智能的策略，在过去已经带来了重大突破。例如，将基于大脑感觉处理层级建模的深度学习，与模拟大脑如何从奖励中学习策略的强化学习相结合，形成了 “深度强化学习”。这一成果成为了 AlphaGo 的基础，AlphaGo 是首个在围棋比赛中击败人类冠军的人工神经网络。这种研究方向的差异，可能使中国在实现通用人工智能的竞赛中占据优势。

将当前的情况与中国如何主导全球光伏面板市场（或者更近的电池技术和电动汽车领域）进行比较可能会有所帮助。在本世纪初，中国政府决定成为全球光伏领域的领导者，随后出台的政策决策和投资，推动了国内光伏产业的发展，并提高了光伏面板的效率，如今中国生产的太阳能面板至少占全球的 75%。如果中国决定战略性地投资于非基于大语言模型的通用人工智能方法，可能会在这个比光伏领域更为重要的领域中再次取得成功。

6.应对中国的先发优势

杰弗里・辛顿（Geoffrey Hinton）因在多层神经网络方面的工作获得了诺贝尔奖和图灵奖，多层神经网络是首个在计算机视觉和其他领域的一系列基准测试任务中实现超人性能的人工智能神经网络架构。他承认：“显然，中美之间存在一场竞赛，而且双方都不会放慢脚步。”

这场通向通用人工智能的竞赛，通常被描述为在数据、芯片、人才和能源方面的竞争，成功的衡量标准是旨在评估 “人类水平智能” 的基准测试。这些比较背后的假设是，双方都在同一领域竞争。

这种观点具有误导性，且十分危险。本研究表明，中国人工智能领域的主要力量正在探索通向通用人工智能的替代路径，在这些路径中，模型复杂性（在美国，许多人将其视为性能的代表，受公司对模型参数数量作为区分特征的关注影响）仅起次要作用。此外，这些非传统方法得到了中国政府的支持。

除了实用性之外，实用主义可能也是中国支持通用人工智能发展的动机之一，旨在避免大型统计模型固有的不可控性。大型统计模型除了存在幻觉和其他恼人的问题外，还抵制政府自上而下的审查，因为其内部工作原理现在是，而且很可能仍然是一个 “黑箱”。中国政府早期对大语言模型 “安全”（在中文里也有 “安保” 的含义）的关注，应在这一背景下理解。

那么，从政府的角度来看，替代模型如何改进现状呢？北京通用人工智能研究院院长朱松纯的影响力远超其北京的同事圈子，他给出了答案。

朱松纯认为，一个人工智能要具有通用性，就必须吸纳指导其探索所处环境的原则。在朱松纯的体系中，人工智能：（1）必须能够处理包括未预先定义的无限任务；（2）具有自主性，包括生成自身任务的能力；（3）是 “价值驱动” 的，而不是像如今的大型模型那样是 “数据驱动” 的。

朱松纯正确地指出，当前的大语言模型 “不具备人类的认知和推理能力，也缺乏人类的情感和价值观”。

“从价值观的角度来看，大型模型能否理解人类的价值取向，决定了大型模型能否安全可靠地应用于与国计民生相关的重要领域。”

因此，“价值观” 不仅在系统学习过程中起到驱动作用，还能确保其所学内容符合国家和人民的需求。正如朱松纯所解释的：

人们对人工智能威胁的担忧核心，在于他们对 “大型模型” 的不信任。信任有两个层面。第一个层面是对系统能力的信任。第二个层面是对价值观的认可。人与人之间信任的核心是价值认同。

朱松纯对通用人工智能系统的测试是北京通用人工智能研究院成立的基础，除了评估视觉、语言、认知、运动和学习能力外，还从基本自我价值、高级自我价值、“初级社会价值、高级社会价值和群体价值” 这五个维度，评估其对内在价值观的遵循情况。

西方文献也认识到，确保大语言模型的输出与特定的价值观集保持一致存在困难。早些时候，为确保大语言模型输出符合特定价值观而采取的生硬方法，受到了广泛嘲笑。“对齐” 挑战的核心在于，大语言模型中缺乏明确的 “道德引擎”。这迫使开发者基于人类对大语言模型生成的有问题回复的反馈，费力地对大语言模型的参数进行 “微调” 。

这种基于调整不良或 “未对齐” 答案，并期望结果能推广到新提示的方法，并不能保证成功。一个典型的例子是，最近的一项研究向不同的大语言模型提出用不同语言表述的相同伦理困境。该研究发现，不仅不同的大语言模型在伦理决策上表现出广泛的差异，甚至同一大语言模型在面对用不同语言表述的相同伦理困境时，行为也大相径庭。诸如不基于人类反馈，而是使用不同价值模型进行训练的新方法，可能适用于特定的、定义明确的场景，但尚不清楚这种策略能否推广到更广泛的伦理困境中，更不用说使大语言模型的回复与特定的价值观集保持一致了。因此，鉴于对于大语言模型来说，“好” 与 “坏” 只是需要预测的词汇，在任何价值框架中都缺乏基础，目前还远不清楚是否以及如何将特定的价值观集 “训练” 到大语言模型中。

最终，朱松纯对替代通用人工智能方法的论证有三个要点：

朱松纯声称，大语言模型无法实现通用人工智能，因为它们缺乏人类探索和学习动机背后的感知能力。在他看来，人工智能要实现通用性，需要一个能够吸收价值观的认知架构。
他提议通过用符合第一原则（即与用户相匹配的价值体系）的内在行为要求，取代对大语言模型输出基本无效的 “护栏” 和临时修复措施，来解决人工智能安全问题。
他回应了中国执政精英对大型模型会颠覆统治的担忧。在中国，受社会主义政党价值观驱动的通用人工智能，在保持竞争力的同时，仍处于可控范围之内，并强化国家意识形态，而且这种状态可能会一直持续下去。

考虑到这些因素，人工智能 “竞赛” 呈现出新的维度，不仅在经济和军事领域存在挑战，在人类价值取向上也面临挑战。

贯穿本文，需要明确指出中国和西方人工智能研究之间的最后一个差异，即在其他条件相同的情况下，中国有针对性的战略方法，可能比西方以利润为导向、追求短期利益（这可能以牺牲需要更长时间才能成功的策略为代价）的方法更有效。

因此，我们提出两点建议：（1）通过政府和机构的支持，用多元化的通用人工智能研究方法取代单一的大语言模型研究；（2）认真对待通过开源渠道监测中国技术发展的必要性。

作者

William C. Hannas 是 CSET 的首席分析师，曾是美国中央情报局负责中国开源分析的高级专家。他目前专注于美中技术竞争、社区推广以及数据发现方法的研究。
Huey-Meei Chang 是 CSET 的资深中国科技专家，《中国力量与人工智能：视角与挑战》（Routledge，2023 年）的共同编辑，也是多篇关于中国人工智能发展论文的合著者。
Maximilian Riesenhuber 博士是乔治城大学神经科学教授，该校神经工程中心的联合主任。他的研究重点是理解大脑功能，以及如何将这些见解转化为增强认知的应用和神经形态人工智能。
Daniel H. Chou 是 CSET 的数据科学家。他为多项关于中国人工智能和技术发展的研究收集、整理和分析数据，同时为政府和私营部门的项目提供支持。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。