解开具身智能之谜：从 RT-X 到自由能原理-CSDN博客

【导读】在 AI 领域，尤其是在具身智能的发展趋势下，自由能原理提供了一个理解和设计智能系统的理论基础。

这一原理认为，智能体通过主动推理来最小化内部模型的不确定性，以此与外部世界互动。在这一框架下，自然语言不仅是沟通的工具，更是智能体减少预测误差、优化信念系统的手段。智能体通过自然语言的交流，能够收集信息、减少不确定性，并构建对世界的一致理解。

本文作者刘志毅是中国人工智能领军科学家，上海市人工智能社会治理协同创新中心研究员，深入研究和实践人工智能领域十余年，包括智能计算、空间智能以及超级人工智能对齐方向。他从谷歌 DeepMind 的 RT-X 项目出发，探讨了具身智能在当前阶段面临的挑战与未来发展方向。文章进一步分析了现有具身智能范式的不足，并指出为了实现更高级别的具身智能，需要突破现有范式，赋予智能体更深层次的自我与环境认知能力，以及更高效的利用数据的方法。作者介绍了自由能原理作为一种可能的解决方案，旨在帮助智能体在不断变化的环境中学习和进化。

投稿 | 中译出版社，摘自《具身智能》

作者 | 刘志毅

责编 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

在 AI 的广阔领域中，具身智能的探索正逐渐成为研究的热点。随着技术的不断进步，我们开始触及这一领域的深层次问题。

谷歌 DeepMind 的 RT-X 项目，以其创新的视角和方法，为具身智能的研究开辟了新的路径。该项目通过引入先进的大语言模型，结合模仿学习策略，在多种具身任务中实现了性能的显著提升。尽管 RT-X 项目取得了令人瞩目的成就，但基于大模型的具身智能在实际应用中仍面临着诸多挑战，如模仿学习与强化学习的局限性，以及对机器人灵活性和环境认知能力的限制。

DeepMind 公开分享

RT-X 的架构革新在于其核心——一个强大的语言模型，它通过模仿学习来提升机器人在具身任务中的表现。然而，这种模型的局限性也不容忽视。例如，RT-X 主要通过控制机器人的末端执行器（end-effector）来完成任务，这在一定程度上限制了机器人动作的灵活性，难以达到人类对自身肢体的自如操控。此外，模型对于自身身体和环境的认知能力不足，可能导致在处理第三视角视频输入时的性能下降。

当前具身 AI 的主流范式，如模仿学习和强化学习，虽然在数据驱动的学习方面取得了一定的成就，但在处理连续变量和数据量限制等核心问题上，仍显得力不从心。这些范式往往需要大量的数据输入，而在现实世界中，获取如此海量的数据往往是不现实的。同时，将连续变量离散化处理，也使得模型丧失了对这些变量连续性的精确把握，影响了模型的性能。

为了实现更高级的具身 AI，我们需要突破现有的范式，寻找新的方法。一方面，我们需要赋予具身智能系统更深层次的自我认知和环境理解能力；另一方面，我们也需要探索更高效的数据利用策略，以应对数据量的限制。尽管目前尚未有确切的解决方案，但众多杰出的研究者，包括图灵奖得主杨立昆、杰弗里·辛顿和约书亚·本吉奥（Yoshua Bengio）等，都在积极探索可能的解决途径，并提出了一系列富有前瞻性的思想。

具身智能的意识

在 AI 的飞速发展中，具身智能作为关键的一个分支，正逐渐成为科技界的焦点。尽管当前的具身智能系统在模仿学习和强化学习等方面取得了显著的进展，但它们仍然缺乏对自身身体和周围世界的基本认识。这一问题在谷歌 DeepMind 的 RT-X 项目中体现得尤为突出。RT-X 项目虽然成功地将大语言模型应用于具身智能任务，但在处理第三视角视频输入时的性能仍然不尽如人意。此外，RT-X 项目在设计机器人行动时，只考虑了操作杆头部的控制，而忽视了机器人身体其他部分的控制，这无疑限制了机器人的灵活性和适应性。

同时，目前的具身智能范式在处理连续变量时，通常采取的是离散化的方法。这种方法虽然简单易行，却丧失了连续变量本身的度量空间性质，从而影响了模型的性能和效率。另一方面，这些范式对数据的需求量非常大，而在实际应用中，我们往往无法获取如此大量的数据，这无疑加大了模型训练的难度。因此，如果想要实现通用的具身 AI，我们就需要寻找新的解决方案。这包括让具身智能系统拥有对自身身体和周围世界的基本认知，这样才能让它更好地适应和应对各种任务。同时，我们也需要找到一种能够更好地利用数据的方法，以克服数据量问题带来的挑战。

通过上述讨论可知，在 AI 领域，具身智能已经引起广泛的关注和深入的研究。其中，如何提高具身智能的泛化能力成为一个重要的课题。大型模型如谷歌的 RT-X，由于对自身身体以及周围世界的认知不足，模型的泛化能力仍有待提高。一个有效的泛化模型需要具备对世界运作方式的深刻理解。然而，目前的模型在这一方面存在明显的缺陷。RT-X 等大型模型虽然能够通过模仿学习在多个具身任务上取得良好的表现，但在面对更复杂、多变的真实世界环境时，模型的表现就变得相当有限。例如，当模型面对特殊的背景时，其表现往往会大打折扣。这意味着，当前的模型并未真正理解世界的运作方式，而只是通过学习对输入数据进行了一种机械化的映射。

再者，当前的具身智能模型通常依赖人工设计的奖励函数来驱动学习。然而，这种方式不仅工作量大，效果也未必理想。国内的 AI 科学家团队就曾经在他们的机器人跑酷项目中遇到这样的问题：他们发现，虽然模型可以在模拟环境中完成跑酷任务，但在真实环境中，模型会一直向前冲，直到撞到墙壁。这是因为模型并不能理解“前进”的真正含义，它只是根据奖励函数给出的指示机械地向前冲。即使模型可以在模拟环境中完成任务，在真实环境中的表现却可能大打折扣。因此，如何设计出能够更好地指导模型学习的奖励函数，也成为一个重要的问题。

除此之外，在 AI 领域，具身智能模型的发展面临着其他挑战，特别是在学习新技能和处理未知任务方面。以“在桌子上移动苹果”的任务为例，如果模型仅被训练去移动物体而未具体识别移动对象，它在实际应用中可能无法准确完成任务。这种局限性源于模型未能深入理解任务的本质，而仅仅是在模仿学习过程中按照固定模式进行操作。为了克服这些挑战，我们需要赋予具身智能系统更深层次的自我认知和环境认知能力。这意味着，模型不仅要有“自我意识”，理解自己的身体结构和运作方式，还应具备“环境意识”，理解周围世界的运作规则，从而在复杂环境中进行有效操作。这样的认知能力将使模型在面对新任务时，能够基于自身理解进行任务的分析和规划，以更高效地完成任务。

AIXI 智能代理

在信息科学领域，信息压缩的问题同样引人关注。以观看充满随机噪声的电视屏幕为例，这些噪声是无法预测和压缩的，因为它们缺乏可识别的模式或结构。这种现象在信息处理中构成了一个难题，因为它阻碍了系统从数据中学习和提取有用信息的能力。为了解决这一问题，谢恩·莱格（Shane Legg）和马库斯·胡特尔（Marcus Hutter）提出了 AIXI 智能代理的概念。他们认为，智能的核心在于解决问题的能力，这种能力应在广泛的任务中得到体现。为此，他们定义了一个目标函数，该函数将任务的奖励与描述任务所需的比特数相结合。在这个框架下，任务的权重与其描述的简洁性成反比，即所需描述比特数越少的任务，其权重越大，这与奥卡姆剃刀原则相吻合。

然而，AIXI 模型也面临着一些挑战。首先，任务的来源和定义是一个问题。对于人类而言，我们的任务是在地球所在的宇宙中生存，这是自然而然的任务。但对于 AIXI 这样的智能代理，它需要完成的任务是什么？其次，任务奖励的来源和确定也是一个问题。如果每个任务都需要大量的人为指定信息，那么学习到的行为可能并不是我们所期望的。这些问题提示我们，在设计智能系统时，需要更深入地考虑任务的来源、定义以及奖励机制的设计，以确保智能系统能够学习到真正有用和符合预期的行为。

综上所述，无论是具身智能模型的自我与环境认知，还是信息科学中的信息压缩问题，以及 AIXI 智能代理的任务定义和奖励机制，这些都是当前AI领域亟待解决的关键问题。解决这些问题需要跨学科的合作，结合认知科学、计算机科学、信息论等领域的理论和方法，以推动 AI 技术的进一步发展。

在探索 AI 的深度与广度时，我们不可避免地会面临一系列根本性问题，尤其是关于如何构建和学习世界模型的问题。目前，尚无统一的标准来评价一个世界模型的优劣，也难以界定何种对世界的认知模型算是“好的”。这些问题的复杂性凸显了我们需要一个更深层次的理论框架来指导研究，而自由能原理正是这样一个潜在的解决方案。

自由能原理

自由能原理，起源于计算主义思想，提供了一个将感知、行动和学习统一起来的框架。它基于一个核心假设：智能体通过最小化其内部状态与外部环境预测之间的差异来维持自身的稳定性。在这一原理中，外部世界的状态被称为潜在状态，这些状态不仅受智能体行为的影响，而且这一过程是随机的，引入了环境噪声。自由能原理还考虑了如何将外部世界的状态与我们的感官信号相联系，例如通过光线反射形成的视觉感知。我们的感知状态变化和行为产生都是沿着自由能最小化的轨迹进行的，这里的自由能由两部分组成：精度和复杂度。精度反映了模型对感官信号的拟合程度，而复杂度则是对模型复杂性的一种惩罚，避免过拟合现象。

在智能体的学习过程中，先验概率起着至关重要的作用。我们追求的是一个既不过于简单也不过于复杂的模型，这也与奥卡姆剃刀原则相呼应。人类对世界的认知模型就是这种简洁性的体现，我们能够迅速地识别和理解复杂的场景而不需要复杂的推理。

自由能原理不仅为智能体提供了一个自动学习世界模型的机制，而且这一机制还不需要人为干预。它适用于多层次的系统，并已在多个研究领域得到应用。除了自由能原理，还有 RSTM 支付等框架，它们提出了自动获取信息和行为的博弈模型，通过世界模型网络和控制器网络的相互作用，优化信息的压缩和行为的产生。

然而，自由能原理和其他学习框架都面临着数据集和环境的挑战。一个关键问题是，是否只要拥有足够大的数据集就能保证智能体展现出无限的智能行为。这引出了对“大数据集”定义的思考，以及对通用人工智能的理解。如果通用人工智能指的是智能体能够解决所有未来可能出现的任务，那么我们必须认识到世界是不断变化的。未来可能出现的新机器和新任务是我们目前无法预见的。这要求我们的学习模型能够适应一个不断演化的世界，而不是仅仅局限于固定的数据集和环境。

在 AI 的探索之旅中，自由能原理提供了一个理解和构建具身智能模型的重要工具。然而，这一原理并非万能，它要求我们不断地探索和改进，以适应不断变化的世界和日益增长的智能体能力需求。通过深入研究和跨学科合作，我们有望逐步揭开具身智能的神秘面纱，推动 AI 向更深层次发展。

自由能原理的核心在于通过最小化内部状态与外部环境预测之间的差异来维持系统的稳定性。这一原理不仅解决了信息压缩的问题，还涉及任务来源、奖励来源，以及如何学习世界模型等一系列问题。但是，为了实现智能体的适应性，我们需要在不断演化的环境中设定具有挑战性的任务。适应性是一个关键特性，它的涌现要求任务本身具有适应性的需求。如果任务在时间上没有变化，或者在一个固定的环境中就能被解决，那么适应性就没有机会涌现。

适应性

肯尼斯·斯坦利（Kenneth Stanley）和乔尔·雷曼（Joel Lehman）
在《为什么伟大不能被计划》（Why Greatness Cannot Be Planned）中提出了一些引人深思的观察和见解。

延伸阅读：《对话前 OpenAI 科学家 Joel Lehman：伟大始于无数踏脚石 | 新程序员》

他们通过一个在线网站让用户对现有图像进行微小的改变，创造出新的图像，展示了实现特定目标可能需要经历一些看似不相关或无意义的过程。这一发现对于我们理解和处理固定数据集和环境具有重要的启示，提示我们如果单纯优化固定目标，可能会忽视一些重要的行为和变化。

在智能体的发展过程中，适应性是一个至关重要的特性。为了实现适应性，我们需要在不断变化的环境中设计具有挑战性的任务。同时，我们需要认识到世界的不断演化，以及适应性在智能体发展中的重要性。这要求我们在理论和实践中找到合适的方法和策略，以适应不断变化的世界。

具身智能和通用人工智能的发展趋势，以及相关的学术理论和产业界的研究成果都指向一个共同的方向——我们需要构建一个能够充分利用有限信息、有效解决问题、适应不确定性，并能从环境中学习和进化的智能模型。自由能原理正是这样一个可能的框架，它为我们提供了一个将行动和感知统一在同一框架下的机制，并为信息获取和模型学习提供了一种方法。

综上所述，自由能原理及其相关研究不仅为我们提供了构建智能体的理论基础，而且为我们如何在不断变化的环境中培养智能体的适应性指明了方向。通过持续的研究和实践，我们有望实现 AI 的长远目标，创造出能够真正理解和适应复杂世界的智能体。

【图书推荐】

本书作者刘志毅是 2024 年福布斯中国“十大人工智能影响人物”，作为中国人工智能领军科学家、上海市人工智能社会治理协同创新中心研究员，著有多部人工智能相关专著。

书中深入探讨了人工智能中的一个新兴领域——具身智能，即智能系统与物理身体的结合。本书系统论述了具身智能的理论框架，包括身体与思维的互动、感知与行为的统一性，以及智能体如何通过与环境的互动来学习写适应。书中详细介绍了自由能原理，这是理解生命体和智能系统组织原则的关键理论，同时探讨了这一原理在人工智能设计中的应用，如强化学习感知与行动的和谐统一等。此外，本书还讨论了多学科视角下的智能解读，以及空间智能与具身智能的整合策略，为读者提供了一个全面了解人工智能未来发展趋势的窗口。