Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images
摘要
在有限样本数下,模板匹配可以准确估计新目标的姿态。然而,遮挡物体的姿态估计仍然是一个挑战。此外,许多机器人应用领域遇到深度图像比颜色图像更适合的无纹理对象。本文提出了一种新的多任务模板匹配(MTTM)框架,该框架在预测分割掩模的同时,从深度图像中找到目标物体最近的模板,并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点,提高了姿态估计的鲁棒性。实验结果表明,尽管MTTM方法仅使用深度图像,但在分割和姿态估计方面优于基线方法。
贡献
本文提出了一种新的基于深度图像模板集的6D姿态估计和分割框架MTTM,该框架不需要CNN对新目标进行进一步训练。MTTM的输出是具有最接近姿态的NN模板、像素级分割掩模以及从NN模板的姿态到被测物体姿态的变换。总之,我们的论文做出了以下贡献:
1.一种新的基于深度的框架,MTTM,它匹配神经网络模板,并使用共享特征映射预测对象的分割掩码和姿态,而不需要对新对象进行额外的训练。
2.在不使物体与场景对齐的情况下推导分割遮罩,通过排除不属于物体的点,增强姿态估计性能的稳健性。
3.实验结果表明,MTTM优于同时使用颜色的基线方法
方法
该网络提取测试场景中给定感兴趣区域(ROI)的特征描述子来检索最近的模板,同时预测目标对象的分割掩模和从最近的模板到场景中对象的姿态变换。
固定大小的每个ROI特征图用于多个任务:提取用于流形学习的描述符、掩模预测和使用成对ROI特征图的姿势回归。描述符由滤波器大小为256、256和128的完全连接层计算。最后一层为线性活化,其余均为elu活化。因此,每个ROI的特征向量的维数为128,f∈R 128。该特征向量是独立计算的,因此模板的特征向量被预先计算并存储在数据库中,以便在测试时进行有效的树搜索。
由场景和模板的ROI特征映射组成的一对,在特征映射的信道级连之前,分别进入带256个滤波器的3x3卷积层。因此,连接的特征映射的输出维度为14x14x512。该合并后的特征映射分别用于特征比较网络中的掩模预测和姿态回归,如图2所示。对于掩模预测,使用具有256个滤波器的3x3卷积层和具有sigmoid激活的单通道输出的1x1卷积层来表示每像素掩模预测。
联合损失函数
分割遮罩和姿势变换仅针对正对计算。由于假设模板的地面真值分割是给定的,因此模板的ROI特征图通过其分割掩模进行过滤,以最小化背景的影响。因此,对于所有通道,不属于对象的特征值都设置为零。当预先计算模板的特征描述符,而测试场景的ROI特征映射保留所有值时,也会应用此过滤的ROI特征映射。
用于掩模预测的损失函数Lmask是经过调整的ROI特征图像素上的二元交叉熵损失的平均值。位姿回归损失Lpose-reg是四元数中地面真值变换和预测变换之间的欧几里德距离。所有任务的总损失如下:
实验