通过利用未标记数据和探索一种自监督学习机制,提出了一种 用于半监督RGB-D显著目标检测的 自监督自集成网络(S3Net)。
具体而言,本文首先通过开发 一系列 三层跨模型特征融合(TCF)模块 来利用 深度和RGB模式之间的互补信息,并制定一个辅助任务来预测自监督的图像旋转角度,从而构建一个 自导卷积神经网络(SG-CNN)作为基线模型。然后,为了进一步探索来自未标记数据的知识,我们 将SGCNN分配给 学生网络和教师网络,并鼓励这两个网络的显著性预测和自监督旋转预测在未标记数据上保持一致。
(self-ensembling,自集成,自己集成自己,仅从字面意思上看,需要融合多个结果,而对于神经网络,一个样本如果多次送入网络,能够产生多个模型预测结果,这些结果可以进行融合;同时在不同的batch训练之后,模型的参数也会发生变化,参数可以进行融合, 因此,self-ensembling的套路在于 集成模型预测结果或者模型参数。 另外一点,ensembling能够降低variance,但是不同epoch下的模型性能是不一致的,因此需要引入权重,模型应该降低最早时刻的权重,加大最近时刻的权重,这个可以通过滑动平均操作来处理;)
Introduction:
显著目标检测(SOD)旨在从单个输入图像中识别出视觉上最独特的目标。 虽然现有的方法取得了显著的效果,但它们通常 依赖于单个RGB /彩色图像或视频序列,但完全忽略了深度信息,而深度信息现在使用Kinect、RealSense和现代智能手机很容易获得。
因此,从 RGB-D 输入(D表示深度图像)推断显著性信息引起了SOD领域的许多研究关注。
• 传统的RGB-D检测器 主要检测手工制作的先验,这会降低检测性能,因为这些启发式先验的假设并不总是正确的。 大多数只能在高质量和约束良好的图像上工作。