具身智能与强化学习前沿进展 | 2023智源大会精彩回顾

智源社区

于 2023-06-20 20:02:49 发布

阅读量1.7k

点赞数 2

文章标签：人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/131318624

版权

2023北京智源大会上，顶尖学者探讨了具身智能与强化学习的最新进展。从谷歌的具身多模态大模型到特斯拉的人形机器人，具身智能在智能交互和未来机器人发展中日益重要。学者们分享了在3D物理世界建模、视频文本学习策略、交互式建模与学习以及视觉导航等方面的研究成果和挑战。其中，强化学习和大模型在具身智能中的应用和作用备受关注，但如何从模拟到真实世界、数据获取、技能学习以及安全问题等方面仍面临挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读

今年是具身智能值得纪念的一年，从谷歌发布具身多模态大模型，展示了智能体与环境智能交互的能力；再到特斯拉的人形机器人引发人们对具身智能和未来通用机器人的想象。那么，具身智能究竟“走”到哪里了？

在2023北京智源大会“具身智能与强化学习”论坛中，我们邀请了领域内顶尖学者，包括北京大学助理教授王鹤、美国UCSD的助理教授苏昊、北京大学的助理教授卢宗青、清华大学的副教授眭亚楠和中科院计算所的研究员蒋树强，共同探讨具身智能的前沿进展，以及从当今大模型到未来的通用人工智能的过程中，具身智能与强化学习将扮演怎样的角色。

本论坛由王鹤主持，下文是精彩回顾。

苏昊：Modeling the 3D Physical World for Embodied AI

UCSD助理教授苏昊带来题为“Modeling the 3D Physical World for Embodied AI”的演讲，介绍具身智能在三维物理世界中的建模思路。他提到，具身智能是人工智能中不可或缺的一环，核心问题是概念涌现和表征学习，基础框架是耦合感知、认知和行动。具身智能的最终目标是构建像人一样聪明、能够自主学习的智能机器人。

具身智能是遥远的目标，涵盖了人工智能的大部分领域，继承了控制论、信息论、博弈论、认知科学等多个领域的研究成果，代表着人工智能的下一个里程碑式目标。苏昊表示，目前具身智能的实现方法主要基于技能训练（skill training），这些基本技能是短时任务解决方案，时间尺度为2-3秒，最多4-5秒。通过将这些基本技能串联起来，可以完成复杂任务。然而，这些基本技能却是瓶颈，挑战涉及到视觉、摩擦力、转动惯量变化、物体的硬度和形状变化等问题。

苏昊认为，物体操作技能学习是具身智能的基石任务，地位类似于计算机视觉中的物体识别。如果这个任务能够完成，其他许多问题都不会那么困难。他提到，如果将大模型与具身智能相结合，需要大量数据。数据来源可以是真实世界或生成的合成数据，如模拟器。模拟器在数据收集方面具有一些真实世界数据无法比拟的优势，例如具有可扩展性、可复现性以及快速原型（prototyping）。

受到自然语言处理领域中基于 Transformer结构模型的启发，苏昊正在尝试用类似的方法处理控制信号，最近的工作是基于思维链的预测控制，将终端控制器的速度控制信号视为像语言一样的 Token 进行建模。与之前的序列建模方法相比，在一些具有挑战性的精细控制任务上，基于思维链的预测控制取得了较大的提升。

最后，苏昊强调了 3D 的 AIGC 和具身智能之间的密切关，前者可以为后者生成大量的几何数据。另外，他认为将图形学和机器学习统一起来将是具身智能未来发展的重要方向。

卢宗青：从视频、文本到智能体策略学习

针对强化学习样本效率低、学习简单游戏需要大量步骤等难题，北京大学助理教授，智源学者卢宗青在报告《从视频、文本到智能体策略学习》中介绍了利用视频和文本数据帮助强化学习算法学习策略。他提到，传统的离线强化学习方法需要「状态-动作-下一个状态-奖励数据」，但视频中最多只有状态序列。因此，需要赋予机器人仅通过观看视频，就能大致了解如何执行任务，并能通过尝试学习策略的能力。

卢宗青提到，这种视觉观察学习的本质问题是要学习一个策略，使得该策略在状态和下一个状态的联合概率分布与专家的概率分布一致。此外，他们还尝