Learning a Decentralized Multi-arm Motion Planner基于强化学习的多机械臂运动规划算法

在这里插入图片描述

Abstract

我们提出了一种闭环多臂运动规划器,该规划器具有可扩展性和灵活性。传统的多臂机器人系统依赖于集中的运动规划算法,其运行时间往往随机器人数量呈指数级增长,因此,无法用开环控制来处理动态环境。在本文中,我们利用多智能体强化学习来解决这一问题。在多臂系统中,通过观察机器人的工作空间状态和目标末端执行器姿态,训练一种分散策略来控制其达到目标末端执行器姿态。该策略是使用软演员评论家和来自基于采样的运动规划算法(即BiRRT)的专家演示来训练的。利用经典的规划算法,我们可以提高强化学习算法的学习效率,同时保留神经网络的快速推理时间。由此产生的策略规模是亚线性的,并且可以部署在具有可变团队规模的多臂系统上。由于闭环和分散的公式,我们的方法概括为5-10个多臂系统和动态移动目标(10臂系统的运动规划成功率为90%),尽管只训练了1-4个手臂规划任务与静态目标。
在这里插入图片描述

Note

多机械臂协同应该是个很好的point,但实物实验还是比较考验实验室资源和成本(毕竟要多个机械臂,还要保证机器人之间不会相互碰撞)。仿真实验代码已经开源,但没有包含视频里展示的多机械臂协同抓取。

视频链接:youtube.com/watch?v=GNos793PFG4&feature=emb_logo

paper链接:https://arxiv.org/pdf/2011.02608.pdf

代码链接:https://github.com/columbia-robovision/decentralized-multiarm

  • 4
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值