Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning

最新推荐文章于 2024-11-20 07:01:57 发布

早起多学习

最新推荐文章于 2024-11-20 07:01:57 发布

阅读量1k

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/java__97/article/details/119680199

版权

论文阅读专栏收录该内容

5 篇文章

订阅专栏

1.解决的问题

先前工作存在的不足

虽然有大量的工作研究推动和抓取规划，但是大多是分开进行的，将两种策略结合进行序列化操作是一个尚未探索的问题。
在基于模型或数据驱动的方法中，推的目标很难被定义或设计奖励函数。
一些工作从经验中学习最大化affordance指标或抓取稳定性指标，如何将分别学习的抓取和推动动作相结合规划序列化动作尚待研究。
A planning framework for non-prehensile manipulation under clutter and uncertainty 通过挖掘特定领域知识提出基于硬编码启发式方法的有监督的推-抓策略，限制了协同行为的类型。

论文的主要贡献

通过自监督试错学习协同的推动和抓取策略，推动动作只有在能够及时抓取的情况下才有用。不同于先前启发式和硬编码目标函数的方法。
端到端训练深度神经网络从输入的视觉图像输出潜在推动和抓取的期望回报（Q值），选择Q值最大的动作。不同于先前工作根据手工设计的特征明确感知单个物体并规划动作。
将数据驱动的prehensile操作（抓取）和non-prehensile操作（推动）相结合。

论文方法的两个优点

可以在非结构化环境中执行复杂的序列化操作；
可以泛化到新物体。

在物理系统上采用强化学习训练端到端策略由于采样空间复杂，昂贵且耗时。
因此作者简化了动作空间，将其定义为末端执行器的动作原语。

作者将任务定义为逐像素标记问题，其中每个图像像素 - 和图像方向 - 对应到在场景中该像素的 3D 位置上执行特定的机器人运动原语（推动或抓取）。通过FCN解决逐像素标记问题。

2.方法

离策略的Q-learning

马尔科夫决策过程建模

状态 $s_t$ ：RGB-D高度图（RGB-D图投影到三维点云，正交投影回重力方向）
动作 $a_t$ ：由动作原语 $\psi$ 和高度图中像素点 $p$ 投影得到的3D位置 $q$ 决定：
$(\psi,q) | \psi \in \{push,grasp\},q\rightarrow p \in s_t$
Fully Convolutional Action-Value Functions（全卷积动作值函数）Q学习+视觉affordance的结合
采用两个并行的FCN $\phi _ p$ 和 $\phi _ g$ 建模Q函数。输入为高度图，输出为与输入相同大小的逐像素Q值表，其中，在像素 $p$ 处的每个 Q 值表示在与像素 $p$ 对应的空间位置 $q$ 执行该动作原语的未来期望回报。
$\phi _ p$ 和 $\phi _ g$ 网络结构均为121层的DenseNet，在InageNet上预训练。其中一个 DenseNet tower将高度图的颜色通道(RGB)作为输入，另一个 DenseNet tower将高度图的深度通道(DDD)(通过减去平均值和除以标准差进行归一化)作为输入，网络输出直接进行通道拼接，再经过两个带有ReLU和BN的 $\times 1$ 卷积层，然后进行双线性上采样。
奖励函数：
如果抓取成功 $R_g(s_t, s_{t+1})=1$
如果推动给环境带来可观测的变化（高度图差值大于某个阈值 $\Sigma(s_{t+1} - s_t) > \tau$ ） $R_p(s_t, s_{t+1})=0.5$
这里并没有考虑推动能否带来成功的抓取，仅仅是鼓励推动带来环境改变。
损失函数：Huber loss
训练和测试细节
采用随机排名的优先经验回放
探索策略为 $\epsilon-greedy$ $（\epsilon=0.5）$ 随训练轮数衰减
奖励折扣因子 $\gamma=0.5$ ，不变
避免陷入重复执行同样动作的死循环，测试时保持 $10^{-5}$ 的学习率

3.实验

论文联合推动和抓取规划的方法为VPG

baseline方法

只有抓取的FCN（grasping only），策略为确定性的 $g r e e d y$ 贪心策略，选择当下抓取affordance值最大的
推动+抓取两个FCN（P+G Reactive），推动的监督信号为观测到的环境变化量， $\epsilon-greedy$ ，且需要 $\epsilon$ 较大探索率保证训练稳定

评价指标

平均完成任务百分比，衡量策略在场景中不连续失败 10 次以上而完成任务的能力
平均抓取成功率
操作效率（物体数量 / 执行动作数量）

仿真结果

随机场景

随机场景中P+G Reactive完成率和动作效率比较低，可能是因为不停地推动导致物体被推出工作区，抓取affordance预测较低
挑战性场景
挑战性场景中P+G Reactive完成率和抓取成功率高一些，但是动作效率比较低，可这是因为仅使用环境变化二值监督信号导致的，推动动作不受其帮助抓取的程度的直接监督。