每天一篇论文298/365 Multi-Task Template Matching for Object Detection, Segmentation and Pose

Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images
摘要

在有限样本数下,模板匹配可以准确估计新目标的姿态。然而,遮挡物体的姿态估计仍然是一个挑战。此外,许多机器人应用领域遇到深度图像比颜色图像更适合的无纹理对象。本文提出了一种新的多任务模板匹配(MTTM)框架,该框架在预测分割掩模的同时,从深度图像中找到目标物体最近的模板,并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点,提高了姿态估计的鲁棒性。实验结果表明,尽管MTTM方法仅使用深度图像,但在分割和姿态估计方面优于基线方法。

贡献

本文提出了一种新的基于深度图像模板集的6D姿态估计和分割框架MTTM,该框架不需要CNN对新目标进行进一步训练。MTTM的输出是具有最接近姿态的NN模板、像素级分割掩模以及从NN模板的姿态到被测物体姿态的变换。总之,我们的论文做出了以下贡献:
1.一种新的基于深度的框架,MTTM,它匹配神经网络模板,并使用共享特征映射预测对象的分割掩码和姿态,而不需要对新对象进行额外的训练。
2.在不使物体与场景对齐的情况下推导分割遮罩,通过排除不属于物体的点,增强姿态估计性能的稳健性。
3.实验结果表明,MTTM优于同时使用颜色的基线方法

方法

该网络提取测试场景中给定感兴趣区域(ROI)的特征描述子来检索最近的模板,同时预测目标对象的分割掩模和从最近的模板到场景中对象的姿态变换。
在这里插入图片描述
固定大小的每个ROI特征图用于多个任务:提取用于流形学习的描述符、掩模预测和使用成对ROI特征图的姿势回归。描述符由滤波器大小为256、256和128的完全连接层计算。最后一层为线性活化,其余均为elu活化。因此,每个ROI的特征向量的维数为128,f∈R 128。该特征向量是独立计算的,因此模板的特征向量被预先计算并存储在数据库中,以便在测试时进行有效的树搜索。
由场景和模板的ROI特征映射组成的一对,在特征映射的信道级连之前,分别进入带256个滤波器的3x3卷积层。因此,连接的特征映射的输出维度为14x14x512。该合并后的特征映射分别用于特征比较网络中的掩模预测和姿态回归,如图2所示。对于掩模预测,使用具有256个滤波器的3x3卷积层和具有sigmoid激活的单通道输出的1x1卷积层来表示每像素掩模预测。

联合损失函数

分割遮罩和姿势变换仅针对正对计算。由于假设模板的地面真值分割是给定的,因此模板的ROI特征图通过其分割掩模进行过滤,以最小化背景的影响。因此,对于所有通道,不属于对象的特征值都设置为零。当预先计算模板的特征描述符,而测试场景的ROI特征映射保留所有值时,也会应用此过滤的ROI特征映射。
用于掩模预测的损失函数Lmask是经过调整的ROI特征图像素上的二元交叉熵损失的平均值。位姿回归损失Lpose-reg是四元数中地面真值变换和预测变换之间的欧几里德距离。所有任务的总损失如下:
在这里插入图片描述

实验

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

几篇CVPR关于multi-task论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值