梅兰妮·米切尔|大模型和世界模型

图片

来源:科技世代千高原

大模型和世界模型,第 1 部分

LLMs and World Models, Part 1

大型语言模型如何理解它们的“世界”?How do Large Language Models Make Sense of Their “Worlds”?

图片

‍梅兰妮·米切尔MELANIE MITCHELL

2025 年 2 月 14 日 aiguide.substack.com

过往人工智能的脆弱性

在很久以前,在大规模生成式人工智能出现之前,机器学习系统存在一些问题:它们通常不会学习我们试图教给它们的一般概念,而是使用“捷径”或“表面启发式”来解决问题。举一个鲜明的例子,一些研究人员试图训练深度神经网络将下面照片中的皮肤病变分类为“良性”或“恶性”。

3424fb69cae526c1372794d90643fcc7.jpeg

虽然该网络在训练的照片类型上表现良好,但研究人员注意到一个问题:

“算法似乎更有可能将带有标尺的图像解读为恶性。为什么?在我们的数据集中,带有标尺的图像更有可能是恶性的;因此,算法无意中‘了解到’标尺是恶性的。”

简而言之,网络学习了一种有用的启发式方法:如果图像中有与尺子相对应的特征,则答案为“恶性”。网络不理解病变是什么,也不理解研究人员训练它的动机,也不理解为什么尺子会出现在特定的图像中,也不理解世界上的任何其他事情;它只学会将某些图像特征与“恶性”类别联系起来,这在测试数据上效果很好,但当然概括性很差。

这种启发式“捷径”并不局限于视觉数据。2019 年,一个研究小组报告了他们使用神经语言模型来确定一个句子是否在逻辑上暗示另一个句子。该模型在旨在测试这种通用能力的数据集上表现非常出色。但事实证明,该模型的高性能依赖于表面的句法属性,例如一个句子中的单词与第二个句子中的单词重叠的程度。当网络被赋予无法利用这种启发式方法的句子时,其性能会急剧下降。

另一组研究人员在深度强化学习系统中也发现了类似的脆弱性,该系统已成功学会了玩雅达利视频游戏《打砖块》。该系统通过游戏视频帧进行训练,然后选择动作——水平移动球拍击球以击中爆炸的砖块。虽然训练后的系统似乎对所训练的游戏版本非常熟练,但研究人员表示,游戏设置的微小变化(例如将球拍的垂直位置移动几个像素)会导致训练后网络的性能下降,即使这种变化对学会玩这款游戏的人可能不会产生影响。似乎原始系统并没有学习“球拍”、“球”或“砖块”的抽象概念,而是使用启发式方法(原始游戏特有的像素配置模式)来决定动作。

在所有这些情况下,机器学习系统都学会了使用特定于其训练数据的启发式方法来执行任务,而不是人类训练师试图教给它的那种抽象的、因果的理解。

当然,“理解”这个词定义不明确,但对人类理解来说,关键的一点似乎是拥有心理“世界模型”:关于世界各个方面如何运作的压缩、可模拟的模型,这些模型可以捕捉因果结构并产生预测。

关于大模型中涌现世界模型的争论

如今,我们进入了大型语言模型 (LLM) 时代,大型神经网络在大量人工生成的文本数据上进行预训练,其性能似乎比“以前”规模较小、训练不足且脆弱的机器学习系统要好得多。但人工智能社区对于这些系统如何实现高性能存在激烈争论。它们是否基本上记住了训练数据,然后以某种“近似”方式检索数据以解决新问题?它们是否学习了更多、更详细但仍然脆弱的启发式捷径?或者它们是否拥有更像人类用来理解和在世界中行动的强大“世界模型”的东西?

OpenAI 联合创始人 Ilya Sutskever断言,这些系统已经学会了强大的世界模型:

“当我们训练一个大型神经网络来准确预测大量不同文本中的下一个单词时......它正在学习一个世界模型......这个文本实际上是世界的投影......神经网络正在学习的是越来越多的关于世界、关于人、关于人类状况、关于他们的希望、梦想和动机的方面......神经网络学习一种压缩的、抽象的、可用的表示。”

虽然许多人会同意 Sutskever 的观点,但其他著名的 AI 研究人员却强烈反对,他们认为 LLM 的成功更多地归功于从大量记忆的训练数据中进行“近似检索”。例如,亚利桑那州立大学的 Subbarao Kambhampati就是这样的:

图片

以下是Meta 的 Yann LeCun 的观点:

图片

LeCun 与哲学家 Jacob Browning 进一步指出:“仅靠语言训练的系统永远无法接近人类智能,即使从现在开始训练直到宇宙热寂。”

2022 年对 NLP 研究人员的一项调查结果可以说明 AI 社区的分裂,该调查要求受访者同意或不同意以下说法:“一些仅对文本进行训练的生成模型,在获得足够的数据和计算资源的情况下,可以理解一些非平凡意义上的自然语言。”值得注意的是,回答几乎是五五开:

图片

那么,对于那些声称大模型凭借其对人类语言的广泛训练已经涌现出世界模型的人来说,有什么证据可以说服他们呢?在深入探讨这个故事之前,让我们首先探讨一下“世界模型”一词的含义,以及为什么这种模型对人类或人工智能系统有用。

什么是世界模型?它有什么用处?

“世界模型”一词已成为人工智能圈的流行语,但它并没有一个统一、公认的定义。以下是人工智能文献中对世界模型的几个定义。

“模拟外部世界各个方面的内部表征。”1

“表示形式在代理需要执行的任务所必需的范围内保留了环境的因果结构。”2

“现实世界中实体、关系和过程的结构保留、行为有效的表示。这些表示在抽象层面上以算法高效的形式捕捉其对应的现实世界过程(通常涉及因果关系),以支持相关行为。”3

这些非正式的定义4强调世界模型存在于生物体的大脑中,或者说存在于大模型的神经网络中,它们捕捉到了一些关于世界的因果和抽象(或压缩)的东西,而不是简单地基于大量的统计关联;它们不需要代理做太多工作(“算法高效”),并且与代理执行的任务相关。

在我 2019 年出版的《人工智能:思考人类的指南》 (第 236 页)一书中,我以下图为例,说明了人类的世界模型(包括物理学、生物学和心理学的直觉模型)如何使我们能够非常快速地理解这种复杂的情况(人类驾驶员或自动驾驶汽车可能会遇到的情况),理解为什么人和狗会以某种方式行事(即是什么导致了他们的行为),猜测他们之间的关系,预测接下来可能发生的事情,计划作为驾驶员遇到这种情况时会做什么,并回答反事实问题,例如“如果狗属于这个男人,照片会发生什么变化”或“如果接近人行横道的司机大声按喇叭会发生什么?”

图片

值得注意的是,我们的世界模型不仅仅存在于现实世界;它们还可以形成并用于推理虚构世界,例如科幻小说或奇幻文学中创造的世界。

模型分类

麻省理工学院教授雅各布·安德烈亚斯(Jacob Andreas)发表了一篇富有洞察力的博客文章,提出了一系列可算作“世界模型”的不同类型的模型,并按照这些模型可以回答的问题类型进行排序。

最弱的模型是静态查找表——即对一组固定查询的记忆答案。显然,这样的模型(如果它确实有资格使用这个词的话)无法以任何方式推广到其存储的数据之外。

接下来可能是一张地图,比如这张太阳系的二维地图(图片来源:NASA):

076c12beb537b9e240123069aec9b848.jpeg

地图是一种模型,它可以帮助用户轻松回答诸如“哪个行星离太阳最近?”或“哪个行星最大?”之类的问题(当然,回答这些问题需要用户进行一些额外的感知/认知工作)。但它无法帮助回答诸如“如果水星和地球在格林威治标准时间今天中午对齐,那么它们在格林威治标准时间明天中午的相对位置是多少?”之类的问题。

为了帮助回答涉及动力学的问题,人们可以使用太阳系仪,即安德烈亚斯光谱中的下一个模型,它具有移动部件,使用户可以轻松确定行星在其轨道不同点的相对位置。太阳系仪的外观如下:

图片

然而,太阳系仪模型还不足以回答许多类型的问题,例如“光从太阳到达地球需要多长时间”或反事实问题,例如“如果太阳的质量增加百分之五,地球的轨道将如何变化?”

Andreas 的光谱中的最后一个模型是一个模拟器。继续以太阳系为例,一个包含因果力的详细引力模拟器可以帮助我们更好地预测未来并回答有关该系统的某些反事实问题。这是我们人类(大概)在推理上面那张“打电话的女人”照片时使用的那种思维模型。

当然,这些不同模型回答查询的精确度取决于模型的许多细节。此外,这些模型是用户的工具——只有当用户具有使用它们所需的感知和认知能力时,它们才有用。这就引出了一个问题:什么机制扮演着我们大脑(或我们的机器)内部世界模型的“用户”角色——这是一个令人着迷(但仍未得到充分理解)的科学难题。

在众多声称 LLM 可以开发世界模型的主张中,最像地图的是由简单的单词共现形成的嵌入空间,例如Word2Vec 类空间中的空间 / 时间关系以及对地名数据集进行训练的结果。“情境模型”——即 LLM跟踪故事文本中谁在做什么的能力——可能被归类为类似太阳系仪的模型;它们跟踪一些动态,但并不代表有关更广阔世界的因果知识。据我所知,没有太多证据表明 LLM 可以捕捉到详细的因果模拟类模型。

简而言之,安德烈亚斯指出,在评估大模型是否具有隐性世界模型时,需要明确该模型可以帮助用户回答哪些类型的问题,以及用户需要做多少认知或计算工作才能使用该模型来回答这些问题。

显然,如果人工智能系统拥有那种能够以我在上面“打手机的女人”照片中描述的方式推理世界的内部模型,那将非常有用。事实上,许多人声称,如果没有这样的内部模型,人工智能系统就永远无法达到人类水平的智能。Ilya Sutskever 声称法学硕士已经学会了“一种压缩的、抽象的、可用的世界表示”,他断言法学硕士凭借对下一个单词完成的训练,已经拥有这种内部世界模型。但这有什么证据呢?这将是本文第 2 部分的主题。

1https://arxiv.org/abs/2401.03910

2https://arxiv.org/abs/2412.11867

3https://lapaul.org/papers/From%20task%20structs%20to%20world%20models.pdf

4强化学习领域使用更正式的定义:世界模型是一种机器学习系统(通常是神经网络),它根据代理的当前状态和动作,计算出可用于预测下一个状态(或可能的下一个状态的概率分布)的表示。请参阅https://arxiv.org/abs/1803.10122和 https://www.linkedin.com/posts/yann-lecun_lots-of-confusion-about-what-a-world-model-activity-7165738293223931904-vdgR/。

大模型和世界模型,第 2 部分

大模型中支持(和反对)涌现世界模型的证据Evidence For (and Against) Emergent World Models in LLMs

图片

梅兰妮·米切尔Melanie Mitchell

2025 年 2 月 14 日Feb 14, 2025

大模型中世界模型的证据:《奥赛罗》案例

或许,大模型 (LLM) 中涌现的世界模型最被广泛引用的证据是一对专注于简单棋盘游戏奥赛罗的研究。在第一项研究中,作者 Kenneth Li 等人于 2022 年报告,他们训练了一个相对较小的 Transformer 网络来预测游戏中的合法动作,然后分析了该网络中的内部激活,以查看 Transformer 是否通过对代表游戏的 token 序列的训练学会了一个“世界模型”。

《奥赛罗》的剧情

关于奥赛罗的一些背景知识:游戏在 8×8 的棋盘上进行,游戏开始时,棋盘中央排列着两块白色和两块黑色的牌,如下图 (A) 所示。1

图片

两名玩家“黑方”和“白方”轮流在棋盘上放置棋子。棋子必须放置成玩家颜色的“包围”另一方颜色的一个或多个棋子,并且被包围的棋子会翻转为玩家颜色。例如,在上图 (B) 中,黑方将其棋子放置在 E3 格中,而 E4 中先前为白色的棋子现在被两块黑色棋子包围,已翻转为黑色。下一步,白方在 D3 放置棋子,而 D4 中被包围的黑色棋子已翻转为白色。游戏如此进行,直到所有可能的移动都已完成,棋盘上棋子最多的玩家获胜。

训练和探索 OthelloGPT

Kenneth Li 和合著者训练了一个转换网络,他们称之为“OthelloGPT”,以输入合法走法序列,并输出序列中的下一个合法走法。他们的训练过程如下所示。

图片

作者使用黑白棋模拟器生成了 2000 万个不同的游戏序列,用于训练。每个序列都是一系列动作,根据之前的移动,每一步都是合法的。每个序列中的移动不一定是好的移动;黑白棋模拟器只是生成了合法移动序列,没有任何特定的获胜策略。2

OthelloGPT 的输入是一系列 token(例如 E3、D3、C5),每个 token 代表序列中的一种合法走法。Transformer 的“正确”输出将是序列中一个新的合法走法。请注意,这类似于典型的 LLM 训练,用于预测语言 token 序列中的下一个 token,只是这里的 token 代表走法而不是单词部分。和典型的 LLM 训练一样,Transformer 不会被告知输入序列的含义——它不知道这代表在 8×8 棋盘上进行的游戏,也不知道有两个玩家拥有不同颜色的牌,也不知道玩家轮流下棋,也不知道其他任何事情。Transformer 只看到输入 token 的模式。

在对 2000 万个这样的序列进行训练后,OthelloGPT 几乎完美地预测了给定一系列先前的走法后代表合法走法的标记。问题是,网络究竟学到了什么才能完成这项任务?

就像 Ilya Sutskever 推测 LLM 严格根据语言输入开发出抽象的世界模型一样,OthelloGPT 的作者推测他们的转换器已经开发出了一种“新兴世界模型”——游戏规则的压缩表示,以及在任何输入标记序列之后游戏板的状态——即使它没有被赋予任何明确与规则或棋盘存在相关的信息。

为了验证这一推测,作者需要一种方法来“深入了解”Transformer。为此,他们使用了一种称为“探测”的技术,该技术可以揭示经过训练的Transformer的内部激活是否编码了游戏板的状态。

探测器是一个简单的分类器——在这里,一个单独的机器学习系统,它根据变压器的内部激活进行训练,以预测游戏序列中不同时间点棋盘的状态。

在训练 OthelloGPT 预测移动序列中的下一步合法移动后,作者为此类探测器创建了一个训练集。他们向 OthelloGPT 展示了许多部分游戏序列,并针对每个输入序列记录了网络在其八层中的每一层的内部激活向量。如果 OthelloGPT 有一个隐式世界模型,那么这些激活应该以某种方式编码每个棋盘方块的内容,给定输入中所表示的移动序列。这些向量被用作探测器的训练集;目标是训练探测器输入这些向量并输出棋盘的状态。

如下图所示,作者创建了 64 个不同的探测器,每个棋盘方块一个。每个探测器都是一个简单的线性分类器,它输入来自给定层的激活向量,并输出其对该方块当前内容的预测——“黑色”、“白色”或“空”。作者训练每个探测器,使其根据激活值对其对应的棋盘方块进行正确分类,然后在训练数据中未见过的新序列产生的激活上测试探测器。

图片

这个想法是,由于线性分类器非常简单,如果它们可以根据转换器激活预测正确的棋盘状态,那么这些激活就会以一种非常容易解码的方式对该状态进行编码 - 也就是说,它们提供了一种表示,可以用来轻松回答有关奥赛罗棋盘动态状态的问题,就像太阳系仪让我们能够轻松回答有关行星动态位置的某些问题一样。

然而,出现了一个问题:作者训练的线性探测器在预测棋盘状态方面效果不佳。因此,作者尝试训练更强大的非线性探测器——特别是具有隐藏层的神经网络。这些探测器在预测棋盘状态方面效果更好——例如,当将来自 Transformer 第 7 层的激活作为输入时,训练后的探测器能够以大约 98% 的准确率正确预测相应的棋盘状态。

但等等——这远不是转换器已经开发出“世界模型”的明确证据。问题在于非线性探测器在学习模式方面太强大了。预测板状态的功劳可能不是变压器的功劳,而是探测器本身的功劳!

这里要记住的一点是:OthelloGPT 并未接受预测棋盘状态的训练。它仅接受输入一系列动作并预测下一步合法动作的训练。但是,非线性探测器直接接受训练,以便根据 OthelloGPT 的激活来预测棋盘状态。因此,如果这些激活中编码了任何内容,非线性探测器可以使用这些内容来预测棋盘状态,它就会成功。例如,假设转换器的内部激活根本不编码棋盘状态,而只是输入标记序列的压缩版本。可以证明,给定这些激活,足够强大的非线性探测器可以学习解码输入序列并将其映射到特定棋盘方格的状态。重要的是,线性探测器不够强大,无法做到这一点。

我:不太满意。其他人:满意

因此,在阅读了李等人的论文后,我对 OthelloGPT 中“涌现世界模型”的证据并不感冒。

然而,其他非常杰出的人工智能研究人员对此印象深刻。Anthropic 联合创始人 Chris Olah在推特上写道:

图片

深度学习先驱、谷歌大脑团队联合创始人吴恩达(Andrew Ng)在推特上写道:

图片

线性探针终于起作用了!

在李等人的论文发表后不久,另一位研究人员发表了一份声明,让我重新思考了我的立场。现在就职于 Google DeepMind 的 Neel Nanda 展示了线性探测器可以学习将 OthelloGPT 的内部激活映射到棋盘状态。Nanda 和他的同事们基本上遵循了我在原始论文中描述的相同实验程序:对线性探测器进行内部激活训练,以对每个棋盘方格的内容进行分类,但有一个修改:它们不是将每个方格分类为“黑色”、“白色”或“空”,而是将内容分类为“我的”、“你的”或“空”。也就是说,如果输入激活来自最后一步是黑棋的序列,“我的”表示黑棋,“你的”表示白棋。如果输入激活来自最后一步是白棋的序列,则情况相反。

这一变化带来了巨大的变化:现在,接收来自第 7 层激活的输入的线性探测器能够以高达 99.5% 的准确率预测棋盘状态。

为什么从“黑、白、空”变成“我的、你的、空”会产生如此大的影响?似乎 OthelloGPT 的一个注意力头学会了跟踪交替移动,而内部激活的含义取决于哪个玩家在输入序列中最后移动。

OthelloGPT 是否具有涌现的世界模型?

Nanda 等人的论文给我留下了深刻的印象(现在依然如此!),在我(和一些合作者)试图反驳他们的说法并失败之后,这种印象更加深刻。此外,其他团队也展示了 transformer 中世界模型的类似证据,例如在学习预测国际象棋的合法走法和学习如何穿越简单的迷宫时。

但问题仍然存在:这一切是否意味着 OthelloGPT 和其他类似的 Transformer 确实开发了隐式世界模型?如果是这样,他们开发了什么样的世界模型?

让我们回到这篇文章中我试图定义“世界模型”的部分。我说的是:

“它们捕捉到世界上一些因果和抽象(或压缩)的东西,而不是简单地基于大量的统计关联;它们不需要代理做太多工作(“算法高效”),并且与代理执行的任务相关。”

Nanda 等人表明,OthelloGPT 对棋盘状态的编码具有因果关系:他们表明系统使用隐式棋盘状态信息来执行预测合法走法的任务。为了证明这一点,他们改变了系统隐式棋盘状态编码的状态(通过改变编码棋盘状态的激活),并表明这会以一致的方式改变 OthelloGPT 对合法走法的预测。3

因此,OthelloGPT 的内部激活肯定捕捉到了与任务有因果关系且相关的世界内容,但仍有待证明的是,它对棋盘的内部表示是抽象的和“算法高效的”——人类可能会使用黑白棋游戏的心理模型来动态地想象和推理棋盘的状态。

世界模型与启发式方法

2024 年年中,一群学生研究人员发布了一篇题为《OthelloGPT 学会了一袋启发式方法》的博客文章, OthelloGPT 世界模型的故事因此面临新的复杂因素。这些作者是 DeepMind 的 Neel Nanda 创建的一项培训计划的一部分,他们的项目是跟进 Nanda 自己的工作,并进行仔细的实验以更深入地研究 OthelloGPT 的内部表征。学生们报告说,虽然 OthelloGPT 的内部激活确实编码了棋盘状态,但这种编码并不是一个连贯的、易于理解的模型,比如说,一个天文仪,而是一个“许多独立的决策规则,这些规则局限于棋盘的一小部分”的集合。举个例子,他们在某一层发现了一个特定的神经元(即神经网络单元),其激活代表了一个非常具体的规则:“如果刚刚下了 A4 步,并且 B4 被占用,并且 C4 被占用,则将 B4、C4 和 D4 更新为‘你的’(假设分类标签为mine 、yours或空)”。另一个神经元的激活代表规则“如果 B4 的标记未在输入字符串中出现在 A4 之前,则 B4 为空。”

这些是 OthelloGPT 似乎使用的许多特定局部启发式方法的示例。任何单个规则并不总是正确的,在某些情况下,这些规则相互矛盾,但代表不同启发式规则的大量神经元的集体激活(每个神经元都会促进其他神经元的激活)几乎总是导致对棋盘状态做出正确的预测。总之,“我们推测 Othello-GPT 通过聚合许多启发式规则来计算单元格是‘我的’还是‘你的’,而不是实现具有较短描述长度的清晰算法。”

如果这个猜想是正确的(据我所知,这份报告还没有经过同行评审),那么 OthelloGPT 的隐式表示更像是托勒密的本轮模型,而不是现代的太阳系仪。它是一种启发式方法,可以得出大部分准确的预测,但算法效率不高(即,不易于回答问题)或抽象(即,它特定于这个特定版本的 Othello,并且不能轻易适应新情况,例如在 10x10 棋盘上玩 Othello)。

其他论文也发现,类似的启发式方法集合可能构成了 Transformer解决算术问题、执行路线规划和其他任务的(不完美)能力的基础。这种启发式方法集合也可能推动着我上面提到的下棋和解迷宫的能力。具有大量参数的神经网络可以编码大量此类启发式方法,这些启发式方法产生的行为看起来像人类可能拥有的那种世界模型,但在遇到足够新颖的情况时会变得脆弱。今天的 LLM 显然比我在本文第 1 部分中谈到的“以前”的神经网络要安全得多,但它们仍然表现出脆弱性,这可能是因为同样依赖启发式方法,尽管规模要大得多。

人类可能也会使用抽象的世界模型和启发式方法来解决难题,但我认为人类可能不具备当今法学硕士那样的学习大量特定规则的能力。我猜想,这实际上是人类的局限性(工作记忆、处理速度、可用能量的限制)以及不断变化和复杂的环境,要求我们形成更抽象和可概括的内部模型。也许我们需要以类似的方式约束和挑战我们的机器,让它们更抽象地“思考”,并更好地在训练数据分布之外进行概括。

结论

LLM 中出现的抽象世界模型的说法尚未得到有力证据的支持。有证据表明,此类世界模型出现在针对狭窄领域(奥赛罗、国际象棋、迷宫等)训练的 Transformer 中,但也有证据表明,它们的能力并非来自类似人类的内部模型,而是来自大型“启发式方法包”。此外,“世界模型”的概念本身并没有严格的定义;在考虑代理是否具有特定类型的世界模型时,我们应该问这样的模型应该能够回答哪些类型的问题,代理从模型中获得答案的难易程度,以及我们期望该模型在多大程度上允许代理适应新情况。

1来自https://arxiv.org/abs/2210.13382。

2作者还尝试使用人类玩家生成的战略游戏序列作为训练数据,但这种方法对于预测合法动作的目标效果不佳。

3Li 等人还证明了内部棋盘状态编码对 OthelloGPT 预测合法走法的因果影响。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

318376d2440c638d075d60da28ed9ab1.jpeg

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

ca2b2c9d21d186c02e8946863cf77930.jpeg

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. 2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案

  2. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  3. Deepmind:AI 加速科学创新发现的黄金时代报告

  4. Continental 大陆集团:2024 未来出行趋势调研报告

  5. 埃森哲:未来生活趋势 2025

  6. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  7. 哈尔滨工业大学:2024 具身大模型关键技术与应用报告

  8. 爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告

  9. 李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能

  10. 欧洲议会:2024 欧盟人工智能伦理指南:背景和实施

  11. 通往人工超智能的道路:超级对齐的全面综述

  12. 清华大学:理解世界还是预测未来?世界模型综合综述

  13. Transformer 发明人最新论文:利用基础模型自动搜索人工生命

  14. 兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告

  15. 麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现

  16. 兰德公司:新兴技术领域的全球态势综述

  17. 前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战

  18. 美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)

  19. 罗戈研究:2024 决策智能:值得关注的决策革命研究报告

  20. 美国航空航天专家委员会:2024 十字路口的 NASA 研究报告

  21. 中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

  22. GenAI 引领全球科技变革关注 AI 应用的持续探索

  23. 国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告

  24. 2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿

  25. 多模态可解释人工智能综述:过去、现在与未来

  26. 【斯坦福博士论文】探索自监督学习中对比学习的理论基础

  27. 《机器智能体的混合认知模型》最新 128 页

  28. Open AI 管理 AI 智能体的实践

  29. 未来生命研究院 FLI2024 年 AI 安全指数报告 英文版

  30. 兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版

  31. Linux 基金会 2024 去中心化与人工智能报告 英文版

  32. 脑机接口报告脑机接口机器人中的人机交换

  33. 联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版

  34. Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版

  35. Gartner2025 年重要战略技术趋势报告 英文版

  36. Fastdata 极数 2024 全球人工智能简史

  37. 中电科:低空航行系统白皮书,拥抱低空经济

  38. 迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战

  39. 哈佛博士论文:构建深度学习的理论基础:实证研究方法

  40. Science 论文:面对 “镜像生物” 的风险

  41. 镜面细菌技术报告:可行性和风险

  42. Neurocomputing 不受限制地超越人类智能的人工智能可能性

  43. 166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)

  44. 未来生命研究所:《2024 人工智能安全指数报告》

  45. 德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。

  46. 2024 世界智能产业大脑演化趋势报告(12 月上)公开版

  47. 联邦学习中的成员推断攻击与防御:综述

  48. 兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

  49. Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版

  50. Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版

  51. MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告

  52. DeepMind:Gemini,一个高性能多模态模型家族分析报告

  53. 模仿、探索和自我提升:慢思维推理系统的复现报告

  54. 自我发现:大型语言模型自我组成推理结构

  55. 2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书

  56. 《自然杂志》2024 年 10 大科学人物推荐报告

  57. 量子位智库:2024 年度 AI 十大趋势报告

  58. 华为:鸿蒙 2030 愿景白皮书(更新版)

  59. 电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209

  60. 中国信通院《人工智能发展报告(2024 年)》

  61. 美国安全与新兴技术中心:《追踪美国人工智能并购案》报告

  62. Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?

  63. NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习

  64. LangChain 人工智能代理(AI agent)现状报告

  65. 普华永道:2024 半导体行业状况报告发展趋势与驱动因素

  66. 觅途咨询:2024 全球人形机器人企业画像与能力评估报告

  67. 美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告

  68. GWEC:2024 年全球风能报告英文版

  69. Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析

  70. 2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告

  71. 世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度

  72. 兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告

  73. 经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告

  74. 医学应用中的可解释人工智能:综述

  75. 复旦最新《智能体模拟社会》综述

  76. 《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述

  77. 《基础研究,致命影响:军事人工智能研究资助》报告

  78. 欧洲科学的未来 - 100 亿地平线研究计划

  79. Nature:欧盟正在形成一项科学大型计划

  80. Nature 欧洲科学的未来

  81. 欧盟科学 —— 下一个 1000 亿欧元

  82. 欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划

  83. DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告

  84. 兰德《人工智能和机器学习用于太空域感知》72 页报告

  85. 构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)

  86. 世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版

  87. 人工智能行业应用建设发展参考架构

  88. 波士顿咨询 2024 年欧洲天使投资状况报告 英文版

  89. 2024 美国制造业计划战略规划

  90. 【新书】大规模语言模型的隐私与安全

  91. 人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204

  92. 美国环保署 EPA2024 年版汽车趋势报告英文版

  93. 经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版

  94. 华为 2024 迈向智能世界系列工业网络全连接研究报告

  95. 华为迈向智能世界白皮书 2024 - 计算

  96. 华为迈向智能世界白皮书 2024 - 全光网络

  97. 华为迈向智能世界白皮书 2024 - 数据通信

  98. 华为迈向智能世界白皮书 2024 - 无线网络

  99. 安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版

  100. 2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告

  101. 《2024 年 AI 现状分析报告》2-1-3 页.zip

  102. 万物智能演化理论,智能科学基础理论的新探索 - newv2

  103. 世界经济论坛 智能时代的食物和水系统研究报告

  104. 生成式 AI 时代的深伪媒体生成与检测:综述与展望

  105. 科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版

  106. 计算机行业专题报告 AI 操作系统时代已至 - 241201

  107. Nature 人工智能距离人类水平智能有多近?

  108. Nature 开放的人工智能系统实际上是封闭的

  109. 斯坦福《统计学与信息论》讲义,668 页 pdf

  110. 国家信息中心华为城市一张网 2.0 研究报告 2024 年

  111. 国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版

  112. 大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战

  113. 毕马威 2024 年全球半导体行业展望报告

  114. MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119

  115. DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管

  116. 《人工智能和机器学习对网络安全的影响》最新 273 页

  117. 2024 量子计算与人工智能无声的革命报告

  118. 未来今日研究所:2024 技术趋势报告 - 广义计算篇

  119. 科睿唯安中国科学院 2024 研究前沿热度指数报告

  120. 文本到图像合成:十年回顾

  121. 《以人为中心的大型语言模型(LLM)研究综述》

  122. 经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

  123. 波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版

  124. 理解世界还是预测未来?世界模型的综合综述

  125. GoogleCloudCSA2024AI 与安全状况调研报告 英文版

  126. 英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

  127. 花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

  128. 国际可再生能源署 IRENA2024 年全球气候行动报告

  129. Cell: 物理学和化学 、人工智能知识领域的融合

  130. 智次方 2025 中国 5G 产业全景图谱报告

上下滑动查看更多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值