显著性目标检测系列文章
Video Salient Object Detection via Adaptive Local-Global Refinement (2021)
文章目录
前言
视频显著目标检测(VSOD)是许多视觉应用中的一项重要任务。可靠的VSOD需要同时利用来自空间域和时间域的信息。现有的算法大多依赖于简单的融合策略,如相加和级联,来合并来自不同领域的信息(提出的现在的模型存在的缺点)。
一、本文贡献点
本文提出了一种适用于VSOD的自适应局部全局优化框架。与以往的方法不同,我们提出了一种局部细化结构和一种全局细化结构来细化不同范围的简单融合特征,它可以充分揭示多层次特征的局部依赖性和全局依赖性。此外,为了加强有效信息,抑制无用信息,设计了一种基于图卷积神经网络(GCN)的自适应加权机制。贡献点主要有以下三点:
- 我们设计了一个局部-全局细化网络,以分层方式细化简单融合的特征。与现有的仅采用简单融合策略的方法不同,我们的细化方案可以充分利用多级特征的局部和全局依赖性
- 设计了一种基于图卷积神经网络(GCN)的自适应加权策略,以进一步利用不同类型特征的相关性。通过对有效信息进行阶段化并抑制无用信息,我们的框架被驱动来学习VSOD的更多区分表示
- 在广泛使用的数据集上的实验表明,所提出的方法实现了与现有技术相比具有竞争力的性能。
二、Introduction
显著目标检测(SOD)的目的是聚焦图像或视频中最具吸引力的物体或区域,然后从复杂背景中以清晰的边界突出它们。与ISOD相比,视频序列中的显著性检测是通过序列输入捕捉运动线索,因为运动对象更容易引起人们的注意,成为显著对象。然而,显著性转移在视频序列中广泛存在。这意味着在一段长视频中,突出的物体可能会逐渐变化。为了解决这一问题,现有的方法需要同时捕获静态和运动线索。换句话说,该方法是同步提取帧内空间特征和帧间时间特征以进行显著性推理。这里,它揭示了另一个问题,即如何在视频显著性检测器中有效地集成空间和时间特征。单独利用它们来检测突出目标是不够的,这可能会导致VSOD的故障和泄漏检测。
相加和级联这种融合策略虽然大大简化了结果框架,但不足以发现来自不同领域的特征的相关性,从而为视频场景中的显著性预测生成更健壮的融合特征。为了解决上述问题,我们提出了一种新的用于视频显著目标检测的双流编码器解码器结构,称为自适应局部全局再细化网络(LGRN)。首先,为了缓解由模拟融合策略引起的特征冗余