攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了

关注公众号,发现CV技术之美

本文转载自机器之心。

主打一个迅速。

跑酷是一项极限运动,对机器人特别是四足机器狗来说,更是一项巨大的挑战,需要在复杂的环境中快速克服各种障碍。一些研究尝试使用参考动物数据或复杂的奖励,但这些方法生成的「跑酷」技能要么多样但盲目,要么基于视觉但特定于场景。然而,自主跑酷需要机器人学习基于视觉且多样化的通用技能,以感知各种场景并迅速做出反应。

最近,一个机器狗跑酷的视频火了,视频中的机器狗在多种场景中迅速克服了各种障碍。例如,从铁板下方的缝隙穿过,爬上木箱,再跳到另一个木箱上,一连串动作行云流水:

c9416ff08bf46895c607edf68b19d76e.gif

e6d6d43199e64a7d3196498083bc30ec.gif

这串动作说明机器狗掌握了贴地爬行、攀爬和跳跃三个基本技能:

f010d0e1ba8e0c3ecfffbba86f49ae0d.gif

43204a56603a425fca71e54ae3ecbd5e.gif

414f3b98172aed6d871416c7ab68b17c.gif

它还有个技能:倾斜挤过窄缝:

ae038ddd8aeabc7c88780f8dd90a8133.gif

如果机器狗未能克服障碍,它会多试几次:

17045ef31442f63a50e7cddb604d0f95.gif

该机器狗是基于一种为低成本机器人研发的「跑酷」技能学习框架。这个框架是由来自上海期智研究院、斯坦福大学、上海科技大学、CMU 和清华大学的研究者联合提出的,研究论文已经入选 CoRL 2023(Oral)。研究项目已开源。

f2f4da8f2cfcafa81a9a54b66308e199.png

论文地址:https://arxiv.org/abs/2309.05665

项目地址:https://github.com/ZiwenZhuang/parkour

方法简介

该研究推出了一种新的开源系统,用于学习基于视觉的端到端跑酷策略,以使用简单的奖励来学习多种跑酷技能,而无需任何参考运动数据。

具体来说,该研究提出了一种强化学习方法,旨在让机器人掌握攀爬高障碍、跳过大间隙、在低障碍下爬行、挤过狭小缝隙和跑步,并将这些技能蒸馏成基于单一视觉的跑酷策略,并以自我为中心的(egocentric)深度相机将其迁移到四足机器人上。

为了成功在低成本机器人上部署,该研究提出的跑酷策略仅使用机载计算(Nvidia Jetson)、机载深度摄像头(Intel Realsense)和机载电源来部署,不使用动作捕捉、激光雷达、多个深度摄像头和大量计算。

为了训练跑酷策略,该研究共进行了如下三个阶段的工作:

第一阶段:具有 soft 动态约束(dynamics constraint)的强化学习预训练。该研究使用自动课程让机器人学习穿越障碍物,鼓励机器人逐渐学会克服障碍。

第二阶段:具有 hard 动态约束的强化学习微调。该研究在这个阶段强制执行所有动态约束,并用现实动态(realistic dynamics)微调机器人在预训练阶段学到的行为。

f51cb1203f0aaf48b9951691c4623ddb.png

第三阶段:蒸馏。在学习了每个单独的跑酷技能后,该研究使用 DAgger 将它们蒸馏成一个基于视觉的跑酷策略(由 RNN 参数化),该策略可以仅使用机载感知和计算部署到腿式机器人上。

0dbc04784c67b693ece7df342f41e9e8.png

实验及结果

在训练中,该研究为每种技能设置了相应的障碍物尺寸,如下表 1 所示:

9fa398a399fc14d77f95e616a487125b.png

该研究进行了大量的模拟和现实实验,结果表明,跑酷策略使低成本四足机器人能够自主选择和执行适当的跑酷技能,仅使用机载计算、机载视觉传感和机载电源即可穿越开放世界中具有挑战性的环境,包括爬高 0.40m(1.53x 机器人高度)的障碍物,跳过 0.60m(1.5x 机器人长度)的大间隙,在 0.2m(0.76x 机器人高度)的低障碍物下爬行,通过倾斜挤过 0.28m 的细缝(小于机器人宽度),并且可以一直跑步前行。

5c04b71f6d2919daa2da45508f1ad8b3.png

b68466d21c7e89059574a429067a7eda.png

此外,该研究还将所提方法和几种基线方法进行了比较,并在模拟环境中进行了消融实验,结果如下表 2 所示:

06b7e814c74d1c86c58ce8760ac1a24f.png

感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考链接:https://twitter.com/zipengfu/status/1701316023612219445

070cf957525b45c6f6f56b3812480ec6.jpeg

END

欢迎加入「机器人交流群👇备注:robot

802bf3d118a05a291d838aa23f8a285d.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值