怎么得到物体的真实坐标_用于物体在线运动预测的自适应循环模型

点击订阅“CAAI认知系统与信息处理专委会” 1.  任务背景 物体的欠驱动推动在机器人灵巧操作任务中一直都是一个研究热点,为物体建立准确的运动预测模型一直都是任务核心问题。基于物理学的力学模型在实际应用中也不够准确和稳定,因为物体的物理属性如接触面摩擦情况和转动惯量等只能近似。而基于统计学的数学模型[1,2]通常需要大量的训练数据,在真实机器人上获取大量数据是一个耗费大量时间和精力的工作。 在本篇论文中,我们首先用DDPG强化学习算法[3]在仿真环境中训练一个物体推动策略,用此策略获取物体运动数据,训练一个LSTM网络模型用于拟合物体运动模型。在真实机器人实验中,仿真中训练的循环模型可以通过有限的几步物体-机器人交互信息进行自适应调整,迅速拟合到物体的真实运动模型。在仿真环境获取物体运动数据过程中,使用域随机算法[4,5],改变物体物理属性,获取所有可能的运动轨迹分布。得到物体运动模型之后,进一步提出使用该模型的控制算法Recurrent Model Predictive Path Integral (RMPPI),此算法是在原有MPPI算法(GradyWilliams et al.)基础上通过增加对历史轨迹的记忆缓存,实现了模型在线的参数自适应调整。                      

be2f450020626489ffc2cddead568766.png

图1.人形机器人物体推动操作 2. 方法概述 本文主要工作由三部分组成:1)自适应循环网络模型的建立,2)提出使用循环模型的机器人控制算法RMPPI,3)使用基于强化学习的Model-free方法和域随机算法在仿真环境中获取训练数据。最终实现由仿真到模型再到真实环境的迁移,总体框架思路如图二所示。

2df5383597e7f6d1a06af66a0810b772.png

图2  总体框架 1)自适应循环网络 人类在推动(操作)一个物体时,可以通过仅仅几步和物体的交互学习到物体的运动模型,进而选择最优动作对物体进行操作。随着人和物体交互过程的不断进行,人脑对被操作物体的运动模型不断调整,整体是一个在线学习过程。受此过程激发,我们选择LSTM网络模型作为物体动力学模型的主要组成部分。如图3所示,网络根据k个时刻的物体运动历史轨迹和当前时刻的机器人(接触点)动作,对物体下一时刻运动进行预测。

772d267073e6b13c3fd396030f96b757.png

图3  物体运动模型 LSTM网络输入时当前时刻的机器人动作和在此之前的k个时刻物体运动轨迹。在完成k个时刻的自适应调整之后,网络输出对物体运动的预测,计算过程如图4所示。

b137deece3e73619a75d7fe0358e1996.png

图4 网络计算流程 2)RMPPI控制算法 为了使原本的MPPI控制算法具有记忆能力,我们给算法增加了用于存储轨迹的buffer。算法流程如图5所示。在算法可以进行精准的运动预测之前,LSTM模型需要几步和物体的交互进行预热。此过程称为“LSTM Warm Up”。在预热之后,算法的缓存中存储了足够的交互轨迹用于网络的计算。在模型预测阶段,算法每次随机采样N条机器人运动轨迹,所有轨迹并行进入LSTM得到对下一时刻的运动预测。此过程循环重复T次得到对未来T个时刻的轨迹预测,然后所有轨迹通过损失函数进行评分,评分最高的轨迹的第一个动作作为算法的选择动作。

53a2d7c044353f28cd097f243e76ee43.png

图5 RMPPI在线控制算法 3)DDPG+HER强化学习算法用于轨迹收集 在仿真环境的轨迹收集过程中,我们使用强化学习对物体推动进行训练。在应用域随机算法时,强化学习策略不变,只改变物体属性,物体属性和策略的偏差刚好满足了轨迹收集中对机器人动作多样性的需求。   3.  真实实验 将上述方法用于实际机器人,我们在UR5上进行试验,物体位置通过AprilTag获取。机器人末端执行器在Z轴上被限定在一个固定高度,实际运动为X-Y二维。机器人运动指令为笛卡尔坐标下的目标速度,通过在线控制器换算成机器人关节指令。实验平台如图6所示。

37a91e7c2f9432fa2a9888c913b299a2.png

图6  机器人实验平台及5个实验物体 4. 实验结果分析 为了证明模型的可泛化性,选择了形状,转动惯量,质量均不同的五个物体如图6所示。图7给出了物体C的推动过程。彩色的线是对机器人拟运动轨迹的采样,共1024条。色谱给出的是每条轨迹的评分高低。每幅图中唯一一条粗的蓝色线条为算法给出的机器人最优动作序列,实验中为了获得最佳效果,只执行序列中第一步。

caa84bdeefcfa5a251287e407967f6bb.png

图7  RMPPI实验中轨迹采样和评分   本文发表在IROS2020 :Self-Adapting Recurrent Models for Object Pushing from Learning in simulation 作者简介: 丛林,汉堡大学计算机学院,在读博士第三年。博士阶段研究课题是基于视觉的强化学习算法,将其用于实际的机器人任务和电子游戏中。本硕就读于哈尔滨工业大学,硕士阶段从事外骨骼机器人控制系统搭建和控制算法设计。欢迎访问个人主页:hitlyn.github.io 参考文献: 1. Bauza, Maria, and Alberto Rodriguez. "A probabilistic data-driven model for planar pushing." 2017 IEEE InternationalConference on Robotics and Automation (ICRA). IEEE, 2017. 2. Yu, Kuan-Ting, et al. "More than a million ways to be pushed. a high-fidelity experimental dataset of planar pushing." 2016 IEEE/RSJinternational conference on intelligent robots and systems (IROS). IEEE,2016. 3. Andrychowicz, Marcin, et al. "Hindsightexperience replay." Advances in neural information processing systems. 2017. 4. Andrychowicz, OpenAI: Marcin, et al. "Learning dexterous in-hand manipulation." TheInternational Journal of Robotics Research 39.1 (2020): 3-20. 5. Tobin, Josh,et al. "Domain randomization for transferring deep neural networks from simulation to the real world." 2017 IEEE/RSJ InternationalConference on Intelligent Robots and Systems (IROS). IEEE, 2017.

----------------------------------------------------------

第四期“机器人智能论坛”如期而至。8月20日下午7点30分,丁汉院士主题报告。第二场德国汉堡大学专场,由三位年轻学者分享机器人智能的最新前沿成果。精彩不断,敬请关注!

5b74afcce3160bf43be81abadf1a684a.png 关注公众号,了解最前沿“机器人智能技术”
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值