Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
使用伪标签的半监督式的显著目标检测
文章目录
前言
随着人工智能的不断发展,显著性目标检测技术也越来越重要,本文介绍一下显著性目标检测领域的相关方法。
一、本文贡献点
一般而言,采样率(帧率)越高,就能越真实的保留原始模拟的音视频细节。
本文的贡献点:
- 使用结合NER的RCRNet可以生成具有时空一致性的saliency map;
- 进一步提出了一个基于flow-guided的伪标签生成器,可以捕获视频中帧内的连续性,并基于少量的含标记帧生成伪标签;
- 利用伪标签和少量手动标记的帧,本文的方法可以达到当前较为顶尖的效果。
二、论文方法
1.残差链接的细化网络 Residual Connection Refinement Network
空间特征提取器基于ResNet-50模型,使用ResNet-50中的前五组layer,并且删除第五组的下采样操作以减少空间信息的损失(随着卷积层的增加,感受野随之增加,部分空间信息也损失了)。
为了获得相同大小的感受野,使用比率为2的膨胀卷积操作(dilated convolution)取代第五组layer中的卷积层。
然后在第五组layer上附加一个多孔空间金字塔池化模块(ASPP atrous spatial pyramid pooling 出自Rethinking atrous convolution for semantic image segmentation一文),从而获取图像级的全局上下文信息和多分辨率的空间上下文信息。
最后,该空间特征提取器生成一个256通道、原始输入分辨率1/6的特征。
Resnet50的网络架构图如下所示:
像素级分类器由三个级联的细化模块构成,每个模块通过一个残差跳跃连接层与空间特征提取器连接,其作用是缓解下采样过程中造成的空间信息损失所带来的影响。
每个细化模块把空间特征提取器中的前一个stage自下而上的输出特征图和自上而下的特征图作为输入,这两个特征图要级联的话分辨率要一致,所以必要的时候需要进行非线性插值的上采样操作。
细化模块首先将特征图进行级联,然后将其传入一个128通道的3×3的卷积层。
残差瓶颈结构(residual bottleneck architecture或残差跳跃连接层residual skip connection layer)作为连接层来连接低维和高维特征图。它对低维特征图进行下采样,使得通道数由M 下降为N = 96 并且为细化模块提供更多的空间信息。
残差学习使像素级的分类器与预训练的空间特征提取器可以在不破坏双方原有结构的前提下进行连接。
ASPP模块:空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP))对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文,ASPP模块结构图如下所示:
光流介绍
光流原理:稠密光流是对每个像素都要计算光流,在连续图片序列中,从第t帧到第t+1帧,每个像素的运动方向和运动速度。
2.非本地增强的循环模块(non-locally enhanced recurrent module)
这里设计的相关知识比较多,会在后续文章详细的讲解相关模块原理。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了一种半监督的视频显著性目标检测方法。