具身智能与强化学习前沿进展 | 2023智源大会精彩回顾

导读

今年是具身智能值得纪念的一年,从谷歌发布具身多模态大模型,展示了智能体与环境智能交互的能力;再到特斯拉的人形机器人引发人们对具身智能和未来通用机器人的想象。那么,具身智能究竟“走”到哪里了?

在2023北京智源大会“具身智能与强化学习”论坛中,我们邀请了领域内顶尖学者,包括 北京大学助理教授王鹤、美国UCSD的助理教授苏昊、北京大学的助理教授卢宗青、清华大学的副教授眭亚楠和中科院计算所的研究员蒋树强,共同探讨具身智能的前沿进展,以及从当今大模型到未来的通用人工智能的过程中,具身智能与强化学习将扮演怎样的角色。

5eee59c5af9010da2008c497a47d5303.jpeg

本论坛由王鹤主持,下文是精彩回顾。 

苏昊:Modeling the 3D Physical World for Embodied AI

ec932ba7d61b27277ce252ad1fdce07c.png

UCSD助理教授苏昊带来题为“Modeling the 3D Physical World for Embodied AI”的演讲,介绍具身智能在三维物理世界中的建模思路。他提到,具身智能是人工智能中不可或缺的一环,核心问题是概念涌现和表征学习,基础框架是耦合感知、认知和行动。具身智能的最终目标是构建像人一样聪明、能够自主学习的智能机器人。

具身智能是遥远的目标,涵盖了人工智能的大部分领域,继承了控制论、信息论、博弈论、认知科学等多个领域的研究成果,代表着人工智能的下一个里程碑式目标。苏昊表示,目前具身智能的实现方法主要基于技能训练(skill training),这些基本技能是短时任务解决方案,时间尺度为2-3秒,最多4-5秒。通过将这些基本技能串联起来,可以完成复杂任务。然而,这些基本技能却是瓶颈,挑战涉及到视觉、摩擦力、转动惯量变化、物体的硬度和形状变化等问题。

苏昊认为,物体操作技能学习是具身智能的基石任务,地位类似于计算机视觉中的物体识别。如果这个任务能够完成,其他许多问题都不会那么困难。他提到,如果将大模型与具身智能相结合,需要大量数据。数据来源可以是真实世界或生成的合成数据,如模拟器。模拟器在数据收集方面具有一些真实世界数据无法比拟的优势,例如具有可扩展性、可复现性以及快速原型(prototyping)。

受到自然语言处理领域中基于 Transformer结构模型的启发,苏昊正在尝试用类似的方法处理控制信号,最近的工作是基于思维链的预测控制,将终端控制器的速度控制信号视为像语言一样的 Token 进行建模。与之前的序列建模方法相比,在一些具有挑战性的精细控制任务上,基于思维链的预测控制取得了较大的提升。

最后,苏昊强调了 3D 的 AIGC 和具身智能之间的密切关,前者可以为后者生成大量的几何数据。另外,他认为将图形学和机器学习统一起来将是具身智能未来发展的重要方向。 

4a7f204f4aac8d4c7e446c1dfc400ef1.jpeg

卢宗青:从视频、文本到智能体策略学习

41cef1ffdd4bdf70c62b8cb22a232de5.png

针对强化学习样本效率低、学习简单游戏需要大量步骤等难题,北京大学助理教授,智源学者卢宗青在报告《从视频、文本到智能体策略学习》中介绍了利用视频和文本数据帮助强化学习算法学习策略。他提到,传统的离线强化学习方法需要「状态-动作-下一个状态-奖励数据」,但视频中最多只有状态序列。因此,需要赋予机器人仅通过观看视频,就能大致了解如何执行任务,并能通过尝试学习策略的能力。

卢宗青提到,这种视觉观察学习的本质问题是要学习一个策略,使得该策略在状态和下一个状态的联合概率分布与专家的概率分布一致。此外,他

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值