Abstract
我们提出了一种闭环多臂运动规划器,该规划器具有可扩展性和灵活性。传统的多臂机器人系统依赖于集中的运动规划算法,其运行时间往往随机器人数量呈指数级增长,因此,无法用开环控制来处理动态环境。在本文中,我们利用多智能体强化学习来解决这一问题。在多臂系统中,通过观察机器人的工作空间状态和目标末端执行器姿态,训练一种分散策略来控制其达到目标末端执行器姿态。该策略是使用软演员评论家和来自基于采样的运动规划算法(即BiRRT)的专家演示来训练的。利用经典的规划算法,我们可以提高强化学习算法的学习效率,同时保留神经网络的快速推理时间。由此产生的策略规模是亚线性的,并且可以部署在具有可变团队规模的多臂系统上。由于闭环和分散的公式,我们的方法概括为5-10个多臂系统和动态移动目标(10臂系统的运动规划成功率为90%),尽管只训练了1-4个手臂规划任务与静态目标。
Note
多机械臂协同应该是个很好的point,但实物实验还是比较考验实验室资源和成本(毕竟要多个机械臂,还要保证机器人之间不会相互碰撞)。仿真实验代码已经开源,但没有包含视频里展示的多机械臂协同抓取。
视频链接:youtube.com/watch?v=GNos793PFG4&feature=emb_logo
paper链接:https://arxiv.org/pdf/2011.02608.pdf
代码链接:https://github.com/columbia-robovision/decentralized-multiarm