论文摘要
精细操作任务,例如螺纹电缆连接或安装电池,对于机器人来说是非常困难的,因为它们需要精确、仔细协调接触力和闭环视觉反馈 precision, careful coordination of contact forces, and closed-loop visual feedback。执行这些任务通常需要高端机器人、精确的传感器或仔细的校准,这可能昂贵且难以设置。
学习能否实现低成本和不精确的硬件来执行这些精细的操作任务?我们提出了一个低成本的系统,该系统直接从真实的演示中执行端到端模仿学习,使用自定义远程操作接口收集。然而,模仿学习提出了其自身的挑战,特别是在高精度领域:策略中的错误会随着时间的推移而复合 compound,人类演示可能是非平稳的 non-stationary。
为了应对这些挑战,我们开发了一种简单而新颖的算法,Action Chunking with Transformers (ACT) ,该算法学习动作序列的生成模型 a generative model。ACT 允许机器人在现实世界中学习 6 个困难的任务,例如打开半透明条件杯并以 80-90% 的成功定位电池这些只有 10 分钟的演示价值的任务。
重要思路
- 低成本硬件不可避免地不如高端平台精确,这使得传感和规划挑战更加明显。解决这一问题的一个有希望的方向是将学习纳入系统。One promising direction to resolve this is to incorporate learning into the system.
- 能够通过从闭环视觉反馈中学习并积极补偿误差来执行精细的任务
- 训练了一种端到端的策略,该策略将商品网络摄像头的RGB图像直接映射到动作。这种像素到动作的方式特别适合精细操作,因为精细操作通常涉及具有复杂物理特性的对象,因此学习操作策略比对整个环境建模要简单得多。 In our system, we therefore train an end-to-end policy that directly maps RGB images from commodity web cameras to the actions. This pixel-to-action formulation is particularly suitable for fine manipulation, because fine manipulation often involves objects with complex physical properties, such that learning the manipulation policy is much simpler than modeling the whole environment.
- 策略的性能在很大程度上取决于训练数据的分布,在精细操作的情况下,高质量的人类演示可以通过允许系统从人类灵巧中学习来提供