机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing（21 ICRA）

wangdx_robot

已于 2022-07-29 10:50:19 修改

阅读量1.9k

点赞数

分类专栏：机器人-强化学习文章标签：计算机视觉人工智能深度学习

于 2022-07-28 22:55:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40081208/article/details/126045842

版权

机器人-强化学习专栏收录该内容

20 篇文章

订阅专栏

1 简介

提出RL方法 Contact-aware Online Context Inference (COCOI)，通过contact-rich的交互来对编码动力学模型属性的上下文嵌入。

在non-planar push任务上进行研究，传感器数据为单目相机图像和腕部的力矩传感器

non-planar push：把物体推到目标位置，同时保持物体竖直。

从历史图像和力矩输入中推理系统动力学

贡献：

（1）提出新的学习框架，该框架通过dynamics transition structure来推理动力学

（2）novel contact-aware sampling strategy

2 方法

dynamics transition structure：对系统动力学模型的输入和输出的公式化表示。

state：

高维观测：由机器人肩部的单目相机拍摄的RGB图像
低维观测：机械手高度和开闭状态

目标位置用红色的点表示。

action：机械手的位置、旋转，开闭命令，终止命令。

reward：当物体与目标位置的距离小于阈值，且物体竖直时，reward为1；否则为0。

policy：Q-learning，

网络版本一如下：

在这里插入图片描述

输入：合并的初始图像和当前图像，低维state，低维action
输出：Q value。图中FCN指的是全连接网络。

系统结构参考的QT-Opt，即分布式采集离线数据并训练

上图中的网络只使用一种传感器数据为输入，无法推理物体的动力学属性，因此提出online COntext Inference (COI)：a module that takes history
observation samples and encodes them into a dynamics context representation – thus equipping the control policy with the ability to infer dynamics of the object. 即将历史观测采样编码为动力学表示。

包含COI的网络结构如下：

在这里插入图片描述

图中红色区域为COI模块，由多个子网络组成，每个子网络的操作如下：

输入：一对RGB图像，分别是推物体前时刻、推物体后时刻，时间间隔0.5s；推物体时刻的受力（即受力大于阈值的时刻）。（每个子网络输入的推物体时刻都不同）
输出融合：多个子网络的输出取平均，作为COI模型的输出，然后和state-action网络的输出合并。
子网络数量：三个子网络最好。

上文所说的动力学表示就是COI模块的输出特征。

网络完全在仿真环境中训练，使仿真和真实场景一致，通过域随机化、RetinaGAN网络使仿真图像看起来像真实图像，效果如下：

在这里插入图片描述

脚本policy：训练初期用来获取成功样本，即沿着物体和目标点的连线推物体。

训练中，policy首先学习推近的物体，后面学会推离目标远的物体。

问题：

1、动力学模型的结构是什么样的？

答：输入多组历史传感器信息（RGB图像对、力矩），输出特征

2、动力学模型如何嵌入到方法中？

答：以网络的形式，将表示动力学信息的特征与state-action特征融合。

3、如何探索action来收集离线数据？

答：和QT-Opt一样， $\epsilon$ 贪婪：20%的概率随机选择action，否则选择使Q-function最大的action。

4、测试时如何采样action？

答：使用 an online sampling-based cross entropy method (CEM)。

3 想法

1、action设置

可以试试力矩和机械手运动方，不采用运动位移。

因为力矩相比于位移更连续，可以保证推物体的效率和控制精度。

2、动力学建模

输入可以试试连续多帧图像和每一帧对应的力矩

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。