万字解析Video Salient Object Detection via Adaptive Local-Global Refinement

显著性目标检测系列文章

Video Salient Object Detection via Adaptive Local-Global Refinement (2021)



前言

视频显著目标检测(VSOD)是许多视觉应用中的一项重要任务。可靠的VSOD需要同时利用来自空间域和时间域的信息。现有的算法大多依赖于简单的融合策略,如相加和级联,来合并来自不同领域的信息(提出的现在的模型存在的缺点)。


一、本文贡献点

本文提出了一种适用于VSOD的自适应局部全局优化框架。与以往的方法不同,我们提出了一种局部细化结构和一种全局细化结构来细化不同范围的简单融合特征,它可以充分揭示多层次特征的局部依赖性和全局依赖性。此外,为了加强有效信息,抑制无用信息,设计了一种基于图卷积神经网络(GCN)的自适应加权机制。贡献点主要有以下三点:

  1. 我们设计了一个局部-全局细化网络,以分层方式细化简单融合的特征。与现有的仅采用简单融合策略的方法不同,我们的细化方案可以充分利用多级特征的局部和全局依赖性
  2. 设计了一种基于图卷积神经网络(GCN)的自适应加权策略,以进一步利用不同类型特征的相关性。通过对有效信息进行阶段化并抑制无用信息,我们的框架被驱动来学习VSOD的更多区分表示
  3. 在广泛使用的数据集上的实验表明,所提出的方法实现了与现有技术相比具有竞争力的性能。

二、Introduction

显著目标检测(SOD)的目的是聚焦图像或视频中最具吸引力的物体或区域,然后从复杂背景中以清晰的边界突出它们。与ISOD相比,视频序列中的显著性检测是通过序列输入捕捉运动线索,因为运动对象更容易引起人们的注意,成为显著对象。然而,显著性转移在视频序列中广泛存在。这意味着在一段长视频中,突出的物体可能会逐渐变化。为了解决这一问题,现有的方法需要同时捕获静态和运动线索。换句话说,该方法是同步提取帧内空间特征和帧间时间特征以进行显著性推理。这里,它揭示了另一个问题,即如何在视频显著性检测器中有效地集成空间和时间特征。单独利用它们来检测突出目标是不够的,这可能会导致VSOD的故障和泄漏检测。
相加和级联这种融合策略虽然大大简化了结果框架,但不足以发现来自不同领域的特征的相关性,从而为视频场景中的显著性预测生成更健壮的融合特征。为了解决上述问题,我们提出了一种新的用于视频显著目标检测的双流编码器解码器结构,称为自适应局部全局再细化网络(LGRN)。首先,为了缓解由模拟融合策略引起的特征冗余,我们设计了局部细化模块(LRM)和全局细化模块(GRM),这两个模块可以全面完善局部和全局范围内的多层次功能。此外,还改进了基于GCN的加权策略,以自适应地强调不同类型特征的重要信息。

图神经网络:

最近,图形神经网络(GNN)已被应用于各种视觉任务,例如车辆重新识别视觉问题回答人类姿势回归。一般来说,GNN可分为两类:光谱法和非光谱法前者在傅里叶域进行卷积变换,其表示为图卷积网络(GCN)。PCRNet从车辆解析中提取零件级特征,并采用GCN来确定车辆重新识别的跨零件关系。GCAGC提出了一种自适应GCN,用于发现图像组中的非局部和远程响应,以进行共显著性检测。后一种是非光谱方法,也称为基于空间的方法。图形注意网络(Graph attention network,GAT)属于这一范畴,广泛应用于许多视觉任务中。GAT被用于探索RGB图像和用于RGB-D显著目标检测的深度图像之间的相关性。Lu等人提出了一种简洁快速的图形存储网络,该网络修改了消息传递机制,并允许该网络捕捉运动线索以进行视频对象分割。

三、提出的方法

我们提出的LGRN的整个框架如图1所示。我们可以看到,LGRN呈现为一种双流编码器-解码器体系结构,主要包括两个组件,即编码器和解码器。
编码器由两个特征提取器组成,用于从RGB流和optical flow流生成多级特征。我们工作的主要贡献在于解码器的设计。在解码器方面,我们首先提出使用分层的方式将来自不同来源的特征融合到一起。此外,采用局部-全局细化结构对简单融合的特征进行细化,最终生成预测的显著性图。与现有的仅采用简单融合策略的方法不同,我们的分层细化方案可以充分利用多层次特征的局部和全局依赖性,使所提出的LGRN学习更能区分VSOD的特征表示。
Alt

多层次特征的生成与融合

在这里插入图片描述
Alt
请注意,对于特定的层,空间流和时间流的通道数可能不同。甚至对于相同的流,在不同层上通道数也有所不同。为了解决这个问题,我们采用了通道对齐技术来调整通道大小。从数学上来说,
Alt
在获得空间和时间分支的特征后,我们以分层方式将其融合,如图1所示。1.对于level l中的融合,不同领域的多层次特征通过元素级的乘法进行集成,其过程可写为:
Alt
请注意,由于RGB帧和光流图高度相关,简单地将它们与乘法融合相对于其他简单策略(例如加法或级联)可以有效地抑制背景噪声和提取重叠的显著区域,但它会丢失一些边界信息,因此无法突出整个显著对象,并严重降低结果显著性检测器的性能。为了解决这个问题,本文提出了一种局部-全局优化技术利用多级特征的局部依赖性和全局依赖性,对不同范围的简单融合特征进行细化。本地全局优化模块的架构如图1所示

局部优化:

局部细化模块(LRM)的目标是分层细化融合特征。如图1所示,我们的局部优化架构由一组局部优化块(LRB)组成,其中每个块旨在利用相邻层中特征之间的相关性。为了充分利用中间检测结果,我们采用了反馈机制,如图1中蓝线所示。如实验阶段所示,反馈机制对LRB选择有用且可靠的信息起着重要作用。此外,我们还提出了一种基于GCN的自适应加权机制,以充分利用输入特征之间的相关性。我们的加权方法可以强制LRB选择有效的信息并抑制无用的信息,从而驱动生成的网络获得更具辨别力的特征表示。
AltAlt
Alt
Alt
Alt
Alt
借助于设计的LRM,对相邻级别的输入特征进行了细化。自适应加权策略充分利用了不同类型特征之间的关系,并实施LRM以强调重要信息,抑制无用信息。

全局优化:

局部细化虽然能够有效地细化相邻特征层中的特征,但无法在全局范围内利用特征之间的相关性。为了解决这个问题,我们提出了一个全局优化模块(GRM),以进一步在全局范围内重新优化特征。
AltAltAlt
Alt
与以往仅使用加法或级联等融合策略的研究不同,本文提出的自适应局部全局细化方法能够发现不同领域特征之间的相关性。细化技术允许我们的方法自动增强有效信息并抑制无用信息,从而学习更多的区分性表示。

损失函数:

为了训练我们的框架,我们首先考虑所采用的二元交叉熵损失(BCE)函数。BCE测量预测的显著图和真实图之间的距离,由下式给出:
Alt
除了BCE损失外,在本工作中,我们还采用了组合损耗来训练我们的框架,该框架由BCE、IoU损失和Focal损失组成。IoU损失L_Iou是一种广泛应用于分割任务中的方法,它计算显著区域与真实值之间的相似性。IoU损失定义为
Alt

四、实验设置:

数据集:

在本文中,我们在三个数据集上评估了提议的网络,包括DAVIS、ViSal和DAVSOD。其中,DAVIS包含50个视频序列,分为一个训练集(30个视频)和一个测试集(20个视频)。ViSal总共中包含17个视频片段和193帧。DAVSOD是近年来 最困难的VSOD数据集。它在训练集中包含61个视频片段,在测试集中包含35个视频片段。在我们的实验中,我们使用DAVIS和DAVSOD的训练集进行网络训练,而剩下的用于测试。

评估标准

Alt
Alt

实验细节:

我们通过PyTorch实现了提议的方法。在训练期间,除了DAVIS和DAVSOD的训练集外,我们还使用DUT-TR来训练空间分支。为了获得光流图,我们利用FlowNet2.0作为提取器。空间和时间流的主干分别是ResNet-50和ResNet-34。对于网络超参数,我们采用SGD作为优化器。初始学习率为0.005,遵循“多边形”调整策略。动量为0.925,权重衰减为0.0005。对于数据扩充,我们使用随机裁剪(裁剪尺寸:380×380)、随机旋转(10度)和随机水平翻转。我们的硬件是Nvidia Geforce TITANX GPU。
模型分数如下所示
Alt


总结

在本文中,我们首先提出了一种用于视频显著目标检测的局部-全局细化网络,该网络能够以分层的方式细化多层次特征。其次,在GCN的基础上,提出了一种自适应加权策略来发现不同特征域之间的相关性。通过突出有效信息和抑制无用信息,我们驱动所提出的网络学习更多的特征表示。最后,实验证明,我们的方法在广泛使用的视频显著目标检测数据集上取得了有竞争力的性能,并证明了所提出的组件的有效性。

  • 30
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Salient object detection是指在图像或视频中检测出视觉上显著的对象区域。通过这种技术,我们可以确定图像中最吸引人的部分,这对于许多应用程序,如图像编辑和视频压缩,非常有用。目前有多种方法用于实现Salient object detection。 一种可能的方法是利用对象检测或对象建议方法,例如FastRCNN,来提取候选对象边界框并进一步分割出其中的显著对象。另一种方法是利用边缘信息区分不同的显著对象。这些方法可以帮助我们在图像中找到显著的对象,并提取出它们的特征。 人类在视觉上能够自然地检测到显著的场景区域,并在注意到这些区域后进一步处理以提取更丰富的高级信息。计算机视觉领域的研究者对这种能力进行了深入研究,并将其应用于解决复杂的视觉问题,如场景理解。与视觉显著性相关的其他研究方向包括显著对象检测、注视预测、对象重要性、可记忆性、场景杂乱、视频趣味性、惊奇、图像质量评估等。 不幸的是,目前对于多个输入图像上的显著对象检测的研究还比较有限。这可能是因为可用于这些问题的基准数据集有限。然而,多模态数据的可获得性正在变得越来越容易,而利用诸如时空一致性和深度等附加线索将有助于更有效地进行显著目标检测。 总的来说,Salient object detection是一种用于检测图像或视频中显著对象区域的技术,可以帮助我们理解图像中最吸引人的部分,并在许多应用中发挥重要作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【综述论文】Salient Object Detection: A Survey翻译整理](https://blog.csdn.net/weixin_45875199/article/details/106626397)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值