机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)

本文介绍了一种基于Q-learning的机器人抓取方法,通过训练网络预测像素级的推和抓取Q值来指导机械手操作。每个像素点定义了具体的推或抓取动作,并通过旋转图像以获取不同角度的动作。采用高维动作空间,适用于全驱动系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:https://ieeexplore.ieee.org/document/8593986

1 简介

model-free 强化学习,Q-learning

方法:训练两个网络,分别预测像素级的push的Q-value 和 像素级的grasp的Q-value;Q-value最高的push或grasp被执行。

每个像素点的push被定义为从左向右推10cm;grasp被定义为以该点为中心,10cm为抓取宽度,水平抓取。

在测试时,图像被旋转16次,分别送入网络,因此可实现16个角度上的push和grasp。

本文采用高维action,即抓取位姿和推;QT-Opt等方法采用更低维的action,即末端偏移。

高维action全驱动系统中是可行的,全驱动指物体的运动完全由机械手控制,如本文的抓取;

低维action更适合于欠驱动系统,需要根据系统反馈实时调整action,最终达到目标状态。欠驱动指物体的运动由环境和机械手同时决定,如预抓取、沿轨迹推物体等。

2 方法

在这里插入图片描述

state:RGB-D图像

action:在第一节描述

grasp reward:抓取成功 reward=1。如果机械手夹爪的张开长度大于阈值,则抓取成功。

push reward:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。

Q网络结构:两个网络的结构相同。首先分别将RGB图像和D图像送入并行的DenseNet,然后合并特征,通过卷积和差值上采样输出预测Q-value。

1、如何给push设置reward

答:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。

2、如何训练像素级预测网络

答:只对执行action的像素点p计算梯度,其他全为0

3 想法

1、本文方法本质上还是监督学习,只不过把grasp/push的置信度标签换成了reward,本质上一样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值