极端尺度物体的显著性分割方法(SOD 新 SOTA)

Paper Link:http://cvteam.buaa.edu.cn/papers.html

Background:显著性物体分割在常规图像场景取得突破进展,在极端尺度物体场景仍面临挑战。

图像前景物体分割是深度学习、计算机视觉等领域的研究热点,在机器视觉、智能交通、智慧医疗、智能创作等领域具有重要的应用价值。近年来,面向常规尺寸物体场景的前景物体分割算法取得了突破性进展。然而,由于提取极端尺度感受野的低效性,现有方法在处理尺度变化场景尤其是包含极端大或者小尺度物体时面临瓶颈。

Motivations:现有显著性物体分割网络感受野的范围和灵敏度有限,难以应对极端大或小尺度物体的非对称的分割需求。

如图1 (a) 和(b)所示,包含大尺度物体的分割图往往具有更好的精确率和召回率,同时存在较大的均方误差,而小尺度物体的分割图通常表现出相反的效果。也就是说,对于包含非常大或小物体的图像场景,存在非对称分割要求。如图1 (c) 和(d)所示,基于卷积神经网络的方法如LDF在处理大型物体时可能会产生更多的失败样例,而基于视觉Transformer的方法如VST则在处理小型物体时遇到问题。

图 1 该工作和 6 种国际最新方法在极端大或小尺度物体数据上的综合对比

Related Work:常见的感受野扩展机制及不足之处。

为了应对这一问题,相关的方法通常设计多尺度并行分支模块或者全局表征来尽可能地扩展网络地感受野,例如,PoolNet提出了通过不同采样率的池化结构构成的多分支结构来提取多尺度特征;PFANet提出通过将语义和细节解耦到不同解码器来提取多解码器中的丰富尺度信息;MINet和PFSNet则充分利用相邻特征之间的关系来获取尺度感知信息并避免噪声的引入;UTA提出了一种门控多尺度模块,以更高效的方式分别汇聚多尺度信息;VST利用视觉Transformer架构从图像整体视角提取更强大的表征性特征。尽管这些方法的都取得了突出的性能,但仍然存在以下缺点:

  1. 基于全卷积网络局部感知机制的方法限制了模型感受野的范围,而基于Transformer的空间区域之间的注意机制又难以兼顾局部细节和效率。这种矛盾导致模型难以平衡全球视角、精确细节和模型效率,进而影响可不同尺度物体的分割效果。

  1. 如图 2 所示,代表性的多支路方法通常设置不同形式的多分支结构以生成以强化模型的应对能力,却忽略了多分支之间的耦合关系或者不同决策结果的相关性。这里,决策路径是指可以独立生成预测结果的网络结构路径。

图 2 该论文的循环补偿策略和常见多分支结构的对比

Method:提出网络感受野拓宽和细化方案:感知扩展与环路代偿的显著性物体分割策略。

本节将会依次介绍感知扩展和环路代偿的前景物体分割方法的网络框架,具体内容包括以下三个部分:1) 感知扩展编码器:重新思考了双边结构的优势,并构建了一个双边极端剥离的感知扩展编码器。2) 动态互补注意力模块:该网络配备了所提出的动态互补注意模块,以动态互补的方式处理极大和极小尺寸物体的非对称分割要求3) 环路补偿策略:进一步提出了一种新颖而有效的环路补偿策略,以基于更宽的感受野来增强尺度特定视图,该策略通过关注先前路径的预测误差使多路解码器中的每个决策路径形成互补的链式预测关系。

图 3 感知扩展与环路代偿网络框架图

  1. 感知扩展编码器

根据对图1呈现的现象,所对比的前景物体分割方法在处理极端大或小尺度物体时可能会产生更多的失败案例。而且,极端大或者小尺度物体的分割过程存在不对称的分割要求。为此,该节提出一种基于双边网络架构的感知扩展编码器,用于获取更广泛的感受野。该编码器将模型对极端尺度物体的感知范围划分到不同的分支,分别是感知全局视角的语义分支和感知局部视角的细节分支。语义分支充分利用Transformer模型 的全局注意力机制来提取全局语义特征并增强整个网络的感受野;细节分支负责提取局部高分辨率细节。该方法的优势是剥离语义信息和细节信息并为两者配备对口的网络结构。细节的提取过程通常需要保证更高的图像输入分辨率,而全局语义的获取则可以适当地降低分辨率。通过这种解耦的方式,可以更好地兼顾模型的细节、语义和效率。

  1. 动态互补注意力模块

所提出的感知扩展编码器可以获得低分辨率语义特征和高分辨率细节特征,然而如何合并和强化这两类特征以获得更具具有弹性的感受野仍待解决。为此,本文提出动态互补注意力模块,简记为DCAM,来解决这个问题。与其常见的特征叠加模块不同,DCAM在合并特征的同时解决了卷积特征和Transformer特征在语义和细节分辨率上的差异。从实现方式上来说,Transformer的全局注意力通过向量内积计算空间层面上所有像素块之间的相关性,而卷积的注意力则建立了局部空间中所有通道之间的联系。前者很难表示通道之间的权重比例,而后者很难建模整个空间范围的关联关系。因此,DCAM将卷积网络特征用做Transformer特征的动态通道权重,以弥补信道之间的相关性不足。Transformer特征则为卷积网络特征生成空间维度的权重,以补充空间全局关联视角。动态注意机制可以适应不同模型的特征,同时弥合双边特征的特性及分辨率差异。

图 4 动态互补注意力模块结构图

  1. 环路补偿策略

极端解耦的感知扩展编码器和动态互补注意力模块可以自适应地过滤极端尺度特征并生成更宽的感受野。为了优化分割效果,进一步提出了环路补偿策略以增强对不同尺度范围特征的感知并抑制误差的传递。一方面,葫芦补偿策略建立在多路径解码器之上,该解码器通过设置具有不同扩展率的卷积,将不同尺度范围的特征划分为不同的决策路径中。另一方面,采用随机训练过程来抑制相邻决策路径之间的错误传输。通过环路补偿策略,每个决策路径都能根据前一条路径的预测误差进行定向调整,由于路径之间通过代偿损失相互监督,不同的路径之间的特征可以构成相互补充的链式关系。

多路径解码器的结构如图 3 所示,每个决策路径都设置一个预测头,以便单独训练每个路径。在训练阶段,路径之间的互补性可以通过增强损耗来增强。在推理阶段,可以根据多条路径的投票结果生成最终显著性图。相比于现有的多分支模块看,多路径解码器尤其独特之处,每条路径即保留了独立的参数存储路径特异性特征,即每个决策路径中独有的扩张卷积和预测头,同时共享了大部分参数以控制额外的计算及参数量的开销。

代偿损失旨在增强多路径解码器中相邻路径之间的互补性,进而构架多条路径之间的环路互补关系。在每次迭代中,随机选择一条路径来保存梯度用于训练,并预测前一条路径的预测结果以计算误差权重。每次迭代都会加强模型相邻路径之间的链补偿关系,最终实现多个决策路径的环补偿,从而获得更准确的特征表达和分割效果。

代偿损失的核心在于不同路径之间代偿损失,该损失类似于Boosting集成思路,上一条路径的误差会在下一条路径上加权。给定多分支结构以显示约束不同分支的特异性。

Experiments:实验性能分析验证。

如表 1 所示,在五个数据集上的实验显示,该方法在五个指标上的性能达到先进水平,值得注意的是,该方法同时训练了一个224x224的tiny模型,同样实现了优异的性能,甚至在某些指标高于原模型,这可能侧面反映了该方法对分辨率的鲁棒性。

表 1 感知扩展与环路代偿方法与相关方法的性能验证

表2显示了BBRF在解决不对称分割要求方面定性对比,其中大尺寸对象数据集Large被定义为数据集中按前景像素比降序排序后的前20%的图像。小尺寸对象数据集Small定义为数据集中按前景像素比升序排序的前20% 的图像。一方面,对于小尺寸对象的分割效果有明显改进。

表 2 感知扩展与环路代偿方法与相关方法在极大或极小尺寸物体图像上的对比

可视化数据如图5所示,从第三列数据可以看出,具有更全面的感受野的BBRF可以有效地处理不同尺度的物体。1) 对于大型对象,该方法可以更好地解决细节问题。例如,在第一行的样例中,BBRF可以精准分割飞机台阶的间隙。2)对于包括多个小尺寸对象的场景,BBRF可以从全局视图中找到最重要的对象。例如,最后一行的结果表明,该方法可以在准确找到鸟的位置,并将目标识别为重要对象,该结果与手动标记的结果一致。3) BBRF不仅在极大和极小规模的场景中具有优异的性能,而且可以实现对规则大小对象的精确分割。图33中间部分的结果表明,对于常规尺寸的对象,细节和语义的分离也会产生更好的分割结果,这些对比可以有效地证明BBRF的高效性及鲁棒性。

图 5 感知扩展与环路代偿方法与相关方法的可视化对比

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值