Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment
摘要
本文提出了一种新的机器人抓取系统,用于在杂乱的场景中自动抓取物体。设计了一种由吸盘和夹持器组成的复合机械手,用于稳定地抓取物体。吸盘首先用于将物体从杂波中提起,并相应地用于抓取物体的夹持器。我们利用提供图为吸盘提供像素级提升点候选。为了获得一个好的供应图,系统引入了主动探索机制。设计了一个有效的度量来计算当前供应图的奖励,并采用深度Q网络(DQN)引导机器人手主动探索环境,直到生成的供应图适合抓取。实验结果表明,所提出的机器人抓取系统能够大大提高机器人在杂乱场景中的抓取成功率。
贡献
本文设计了一种由吸盘和夹持器组成的复合机械手。利用深度Q网络(DQN),机器人手可以主动探索环境,直到获得一个好的供应地图。整个抓取系统(图1)能够在真实的杂乱环境中有效地抓取多种物体。主要贡献总结如下:
•设计了一种结合吸盘和夹持器的新型复合机械手。它能快速、稳定地抓取不同物体。
•提出了一种利用深度Q网络(DQN)的主动探索算法,以便于机器人主动探索环境,直到生成一个好的供应地图。
•将复合手和主动探测算法进行了充分的集成,实验结果表明该系统在真实的杂波环境中抓取目标时具有优越的性能。
方法
机器人手结构
该复合机械手由两个平行手指和一个吸盘组成。两根手指对称地分布在底座上。每个手指都有一个电机驱动的平行四边形机构,确保手指抓取物体时两个手指的表面始终平行。
抓取过程
两个手指处于打开状态,吸盘保持在初始状态。机械手移到吊点,达到吊点后,将吸盘弹出接近物体表面。然后,空气泵在吸盘中产生负压,从而提升物体。接下来,推杆缩回,将物体夹在两个手指之间。最后,手指合拢,保证抓握的稳定性。最后,对象将被释放。释放物体的过程与抽吸过程相反。
抓取实验过程
深度Q-Network 结构
本文提出机器人应该有能力积极探索和改变环境,直到获得一个好的地图。1)供应链网络:供应链网络是一个以RGB和深度图像为输入,输出供应链地图的网络,供应链地图是一个密集的像素级热图,其值在0到1之间。值越接近1,提升位置越可取。为了训练的目的,我们手动标注场景图像,并在其中标注适合抓取的区域。2)失败案例:在混乱的场景中,提供图通常在三种情况下失败。第一种情况是高度或颜色相似的物体彼此靠近(图7(a))。这些对象很可能被提供convent视为一个单独的对象。在这种情况下,相邻物体之间的连接点将被识别为合适的拾取点,这将导致抓取失败。第二种情况是当两个物体部分重叠时(图7(b))。这两个对象可以被供应协调网视为一个,并且可以将这两个对象的边界识别为合适的拾取位置。第三种情况是当物体的姿势过度倾斜时(图7(c))。在这种情况下,由提供图指示的拾取点可能不适合实际操作,特别是当对象的表面不够平滑时。
实验
当系统仅依赖于静态提供图进行抓取时,在混乱的场景中很可能会失败。下图示出了使用静态提供图的抓取实验的结果。