作者 | Jeffrey Ichnowski等
译者 | 凌霄
出品 | AI科技大本营(ID:rgznai100)
摘要
电子商务仓库中的拣选机器人需要快速计算各种配置之间有效且平稳的机器人手臂运动。最近的研究中是将抓取力分析与手臂运动规划结合,以计算最佳的手臂平滑运动;然而,数十秒的计算时间支配着运动时间。深度学习的最新研究将神经网络应用于计算这些运动。但是,运算结果缺乏产生符合运动学和动力学运动所需的精度。虽然运算结果不可行,但神经网络计算的运动接近最佳结果。该研究中所提出的方法以近似运动为起点,开始优化,优化运动规划器将近似方法通过几次迭代,优化为切实可行运动。
在实验中,当将该研究结果应用抓取优化的运动规划中,结果表明可以将计算时间从 29s 减少到 80ms,达到减少两个数量级(300×),非常适合电子商务仓库的拣货。
介绍
2019 年冠状病毒病大流行极大地增加了对电子商务的需求,并降低了仓库工作人员近距离执行订单的能力,激发了人们对机器人执行任务的研究兴趣。然而,尽管最近在机器人抓取研究方面取得了一些进展,但是机器人运动规划和执行仍然是瓶颈。
在本文中,研究人员介绍了突变运动的限制,并发现生成的逐步二次规划算法(SQP)及其基础二次规划算法(QP)需要数十秒的数量级的计算,这对于加快整体拾取和移动速度不切实际。然后,研究人员介绍 DJ(Deep-learning Jerk-limited)- GOMP 算法,它使用深度神经网络来学习利用热启动计算获取的轨迹,从而将计算时间从 29s 减少到 80ms,使其可用于工业用途。
该研究介绍了DJGOMP 算法和训练过程。研究人员在 UR5 机械臂上进行了实验,验证了 GOMP 生成的轨迹可在物理机器人上执行并快速流畅的运动。本文贡献:
(1) J-GOMP 算法,可以为取放操作规划计算时间优化的加速度变化限制的运动;
(2) DJ-GOMP 算法,它使用时间优化运动规划的深度学习方法,从经验上将 J-GOMP 优化的计算时间提高了两个数量级;
(3) 在时间和运动时间上与其他运动规划器进行比较,表明 DJ-GOMP 算法可以快速的规划运动;
(4) 在模拟实验以及在实体 UR5 机器人上进行的实验表明,DJ-GOMP 可有效地将加速度变化降低到可接受的范围。
J-GOMP
研究人员提出了一个多步骤的过程来快速计算运动规划。基本的运动规划器是基于GOMP 算法中提出的 SQP 算法,这是 TrajOpt 算法的优化,其中包含用于避开障碍物的深度图,取放点的自由度,以及机器人的动态极限。在 GOMP 算法及其扩展工作中,轨迹根据固定的时间间隔被划分为 H + 1 个路径点序列。在这项工作中,研究人员对 GOMP 中 SQP 进行了扩展,使其包括了加速度变化限制,进而产生了 J-GOMP 算法。根据 J-GOMP 算法, 可以产生了加速度变化约束下的运动规划,但计算时间大大增加。
为了解决缓慢的计算,研究人员训练了一个深度神经网络来逼近 J-GOMP。因为网络近似于J-GOMP,所以研究人员使用 J-GOMP 生成训练数据集,该数据集由运行时可能遇到的随机拾取和放置点的轨迹组成(例如,从拾取箱中的位置到放置箱中的位置) 。利用基于GPU(图形处理单元)的加速,网络可以计算毫秒级的近似轨迹。但是,网络无法保证其生成的轨迹在运动学上或动态上是可行的,也不会避开障碍物。
为了修正网络产生的轨迹,研究人员建议使用网络的轨迹从 J-GOMP 热启动 SQP。热启动使SQP 可以从更接近最终解决方案的轨迹开始,从而使 SQP 迅速收敛至最佳解决方案。由于 SQP 会综合执行拾取,放置,运动,动态和障碍等约束,因此生成的轨迹是有效的。
DJ-GOMP
对于给定的工作环境,DJ-GOMP 算法通过三个阶段的过程来加快机器人的运动规划和重复任务。第一阶段从机器人可能遇到的任务分布中随机采样任务,并使用 SQP 生成时间和加速度最小的运动计划。第二阶段使用第一阶段的数据训练一个深度神经网络,以计算给定任务的时间优化运动(图 3)。第三阶段使用第二阶段的深度网络来生成运动计划,热启动第一阶段的SQP 算法。通过从深度网络的输出中热启动 SQP,DJ-GOMP 可确保运动规划满足机器人的约束(但是神经网络无法满足约束),并极大地提高了 SQP 的收敛速度。
本节介绍 DJ-GOMP 中的方法。底层 DJ-GOMP 是基于 SQP 的可优化的加速度变化和时间约束的运动规划器。由于解决此 SQP 的复杂性,计算时间可能远远超过轨迹的执行时间。DJ-GOMP 在随机的一组取放输入上使用此 SQP 来生成用于训练神经网络的训练数据。在拾取和放置操作期间,DJ-GOMP 使用神经网络为给定的拾取和放置框架计算近似轨迹, 然后将其用于热启动 SQP。
该神经网络由一个输入层组成,该输入层通过四个完全连接的模块连接到多个输出模块。输入层是级联的抓握帧。因为最佳轨迹长度可以变化,所以对于不同的轨迹长度,网络有多 个输出头。为了选择要使用的输出,研究人员使用了一个单独的分类网络,该网络具有两个 完全连接的层,并使用交叉熵损失对一个编码进行了独热编码。研究人员将层位分类和多输 出网络称为HYDRA 网络。为了训练该网络,使用零梯度保留不在训练样本中的轨迹输出层的激活值,以权衡在反向传播期间输入层对输入层的贡献。
在实验中,具有单个输出头的神经网络无法产生一致的结果来预测各种长度的水平。研究人员推测,不同视界长度的轨迹之间的不连续性使学习变得困难。相比之下,研究人员发现网络能够在单个视域长度内准确地学习功能,但是在计算和空间效率方面却是无效的,因为每个网络都应该能够在视域之间共享有关功能的信息。从而进行了相应的设计,使具有多个输出头的单个网络通过多个共享的输入层共享权重。
实验
研究人员将计算时间和运动时间性能与 PRM*和 TrajOpt 进行了比较。对于 PRM*,研究人员在机器人前面的工作区上预先计算了 10,000、100,000 和 1,000,000 个顶点的图形。由于 PRM*是一种渐近最优的运动规划器,因此具有更多顶点的图应该产生更短的路径,但要花费更长的图搜索时间。
对于 TrajOpt,研究人员将优化参数配置为与 DJ-GOMP 匹配,从而可以提高默认设置的成功率。1000 个拾取放置对的结果如下图所示,观察到 PRM*具有一致的快速计算时间,但产生的轨迹最慢。TrajOpt 的计算速度较慢,但产生的轨迹比 PRM* 要快。DJ-GOMP 直接针对时间最佳的路径进行优化,因此可以产生快速运动,而深度学习的水平预测和热启动使其能够在复杂的约束条件下快速进行计算,从而使计算和运动时间相结合,从而实现整体上最快的速度。
为了评估 DJ-GOMP 规划的运动路径是否适用于实体物理机器人,研究人员具有 UR5 跟随 DJ-GOMP 生成的轨迹,示例运动如下图所示。UR5 控制器不允许机器人超过关节极限,并在允许时发出自动紧急停止信号。DJ-GOMP 生成的轨迹都被约束在运动范围内,因此不会引起停止。但是,研究人员观察到,在没有加速度限制的情况下,高加速度变化的轨迹可能会导致 UR5 运动超限甚至反弹,借助 DJ-GOMP 的加速度限制轨迹,UR5 运动不会过冲。
实验表明,热启动 J-GOMP 优化运动计划器(近似于深度学习)可以将 J-GOMP 的运动计划速度提高两个数量级(超过 300 倍),可达到平均 80ms 的计算时间。时间优化有可能减少每小时的拣货量,这是仓库包装操作中的一项重要指标,而加速度变化的限制可以减少机器人的磨损,从而延长使用寿命并减少停机时间。
在未来的工作中,研究人员将探索将 DJ-GOMP 扩展到执行更多不同任务的其他机器人, 这些机器人将包括增加开始和目标配置的变化以及在更复杂的环境中。研究人员还将探索其他深度学习方法,以找到优化过程的更好近似值,从而使 DJ-GOMP 的最终优化步骤能够更快地热启动。对于无法访问 GPU 或其他神经网络加速器的系统,探索其他路线来计算热启动轨迹可能是富有成果的,例如,不同/较小的网络设计或来自训练数据集的最近轨迹。在机器人技术的其他领域,例如,任务规划和模型预测控制,使用基于深度学习的热启动可能会加快约束性优化的速度。
原文:Deep learning can accelerate grasp-optimized motion planning. Science Robotics 封面文章
点击这里 ???? 关注我们~~~
更多精彩推荐
☞RedHat 年度报告:只索取不贡献的开源消费“大户”不受待见☞腾讯:这可是一只“骨骼清奇”的狗☞用数据分析《你好,李焕英》“斐妈”爆红的真相☞从猫狗不分到实时识别准确率超过99%,计算机图像识别是如何做到的?
点分享点收藏点点赞点在看