机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing(21 ICRA)

1 简介

提出RL方法 Contact-aware Online Context Inference (COCOI),通过contact-rich的交互来对编码动力学模型属性的上下文嵌入

在non-planar push任务上进行研究,传感器数据为单目相机图像和腕部的力矩传感器

non-planar push:把物体推到目标位置,同时保持物体竖直。

从历史图像和力矩输入中推理系统动力学

贡献:

(1)提出新的学习框架,该框架通过dynamics transition structure来推理动力学

(2)novel contact-aware sampling strategy

2 方法

dynamics transition structure:对系统动力学模型的输入和输出的公式化表示。

state

  • 高维观测:由机器人肩部的单目相机拍摄的RGB图像
  • 低维观测:机械手高度和开闭状态

目标位置用红色的点表示。

action:机械手的位置、旋转,开闭命令,终止命令。

reward:当物体与目标位置的距离小于阈值,且物体竖直时,reward为1;否则为0。

policy:Q-learning,

网络版本一如下:

在这里插入图片描述

  • 输入:合并的初始图像和当前图像,低维state,低维action
  • 输出:Q value。图中FCN指的是全连接网络。

系统结构参考的QT-Opt,即分布式采集离线数据并训练

上图中的网络只使用一种传感器数据为输入,无法推理物体的动力学属性,因此提出online COntext Inference (COI):a module that takes history
observation samples and encodes them into a dynamics context representation – thus equipping the control policy with the ability to infer dynamics of the object. 即 将历史观测采样编码为动力学表示

包含COI的网络结构如下:

在这里插入图片描述

图中红色区域为COI模块,由多个子网络组成,每个子网络的操作如下:

  • 输入:一对RGB图像,分别是推物体前时刻、推物体后时刻,时间间隔0.5s;推物体时刻的受力(即受力大于阈值的时刻)。(每个子网络输入的推物体时刻都不同)
  • 输出融合:多个子网络的输出取平均,作为COI模型的输出,然后和state-action网络的输出合并。
  • 子网络数量:三个子网络最好。

上文所说的动力学表示就是COI模块的输出特征。

网络完全在仿真环境中训练,使仿真和真实场景一致,通过域随机化RetinaGAN网络使仿真图像看起来像真实图像,效果如下:

在这里插入图片描述

脚本policy:训练初期用来获取成功样本,即沿着物体和目标点的连线推物体。

训练中,policy首先学习推近的物体,后面学会推离目标远的物体。

问题

1、动力学模型的结构是什么样的?

答:输入多组历史传感器信息(RGB图像对、力矩),输出特征

2、动力学模型如何嵌入到方法中?

答:以网络的形式,将表示动力学信息的特征与state-action特征融合。

3、如何探索action来收集离线数据?

答:和QT-Opt一样, ϵ \epsilon ϵ贪婪:20%的概率随机选择action,否则选择使Q-function最大的action。

4、测试时如何采样action?

答:使用 an online sampling-based cross entropy method (CEM)

3 想法

1、action设置

可以试试力矩和机械手运动方,不采用运动位移。

因为力矩相比于位移更连续,可以保证推物体的效率和控制精度。

2、动力学建模

输入可以试试连续多帧图像和每一帧对应的力矩

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值