SilhoNet：一种用于3D对象位姿估计和抓取规划的RGB方法

最新推荐文章于 2022-04-16 02:43:02 发布

Tom Hardy

最新推荐文章于 2022-04-16 02:43:02 发布

阅读量382

点赞数

文章标签：计算机视觉机器学习人工智能深度学习卷积神经网络

本文链接：https://blog.csdn.net/qq_29462849/article/details/118160732

版权

SilhoNet是一种新型的RGB方法，用于3D对象位姿估计和抓取规划。通过卷积神经网络（CNN）处理RGB图像，预测中间轮廓表示和遮挡掩模，进而回归3D位姿。该方法在YCB视频数据集上优于PoseCNN，解决了仅使用单目相机数据时的挑战。SilhoNet利用中间轮廓预测，减少了合成到实际域的转移问题，并通过预测的遮挡掩模确定可视抓取点，提高了抓取规划的准确性。

摘要由CSDN通过智能技术生成

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

论文题目：SilhoNet:An RGB Method for 3D Object Pose Estimation and Grasp Planning

论文地址：公众号「计算机视觉工坊」后台回复「silhonet」，即可获得论文原文。

摘要:自主机器人操纵通常涉及估计待操纵物体的位姿和选择可行的抓取点。使用RGB-D数据的方法在解决这些问题方面取得了巨大成功。但是，在某些情况下，成本限制或工作环境可能会限制RGB-D传感器的使用。当仅限于单目相机数据时，对象位姿估计和抓取点选择的问题都是非常具有挑战性的。过去，研究的重点是分别解决这些问题。在这项工作中，本文引入了一种名为SilhoNet的新方法，它弥合了这两项任务之间的差距。本文使用卷积神经网络（CNN）架构，该架构接收感兴趣区域（ROI）的提议，以此来同时预测具有相关遮挡掩模的对象的中间轮廓表示。然后从预测的轮廓回归3D位姿。在预先计算的数据库中抓取点通过将它们反投影到遮挡掩模上来过滤，以找出在场景中可见的点。本文表明，本文的方法在YCB视频数据集上比用于3D位姿估计的最先进的PoseCNN网络实现了更好的整体性能。

一、位姿估计简介

使用中间轮廓表示来促进在合成数据上学习模型以预测真实数据上的3D对象位姿，有效地桥接SIM到实际域移位;

在本文中，本文提出以下贡献：

1）SilhoNet，一种新的基于RGB的深度学习方法，用于估计覆盖场景遮挡的位姿估计;

2）使用中间轮廓表示来促进学习合成数据模型以预测在实际数据上的3D对象位姿，有效地弥合了SIM到实际的域转移;

3）在新场景中使用推断轮廓的投影选择未被遮挡的抓取点的方法;

4）对视觉上具有挑战性的YCB-Video数据集进行评估，其中提出的方法优于最先进的RGB方法。

二、SilhoNet方法

本文介绍了一种新颖的方法，该方法对单目彩色图像进行操作，以估计相对于相机中心的3D物体旋转位姿，并预测视觉上未被遮挡的抓取点。该方法在两个阶段中操作，首先预测对象的中间轮廓表示和遮挡掩模，然后从预测的轮廓回归3D方向四元数。基于RGB视点中检测到的对象的估计遮挡和对象模型的先验知识，从预先计算的抓取数据库确定可行抓取点。以下部分详细介绍了本文的方法。

A.网络架构叙述

图1显示了本文的网络架构。网络的输入是RGB图像，其具有用于检测到的对象和相关联的类标签的边界框ROI提议。第一阶段使用VGG16主干，最后使用反卷积层，从RGB输入图像生成特征图。该特征提取网络与PoseCNN中使用的相同。来自输入图像的提取特征与来自一组渲染对象视点的特征连接，然后通过具有相同结构的两个网络分支来预测完整的未被遮挡的轮廓和遮挡掩模。网络的第二阶段通过ResNet-18架构传递预测的轮廓，在末端具有两个全连接层，以输出表示3D位姿的L2正则化四元数。