PFENet++- Boosting few-shot Semantic Segmentation with the Noise-filtered Context-aware Prior Mask

摘要

在这项工作中,我们重新审视了 "Prior Guided Feature Enrichment Network for Few-Shot Segmentation "中提出的先验掩码指导。先验掩码作为一个指标,突出了未知类别的感兴趣的区域。在最近的研究中,在不同的框架上取得了更好的性能。然而,目前的方法直接采用了元素与元素之间的对应关系来表示属于目标类别的概率。因此,在先验掩码生成过程中,更广泛的背景信息很少被利用。为了解决这个问题,我们首先提出了Context-aware Prior Mask (CAPM),它可以利用附近额外的语义线索来更好地定位查询图像中的物体。其次,由于最大相关值容易受到噪声特征的影响,我们又进一步加入了一个轻型的噪声抑制模块(NSM)来筛选出不必要的反应,产生高质量的掩码来提供先验知识。实验表明,这两个贡献都有很大的实用价值,命名为PFENet++的新模型在三个具有挑战性的基准数据集PASCAL-5iCOCO-20i和FSS-1000上的表现明显优于基线PFENet和所有其他竞争对手。在不影响效率的情况下取得了新的最先进的表现,表现出了在few-shot语义分割中成为新的baseline的潜力。
在这里插入图片描述

介绍

深度学习显着提高了语义分割的性能。然而,强大的语义分割模型在很大程度上依赖于具有足够完全标记数据的训练,并且它们很难处理在训练阶段没有看到新类的新应用程序。
小样本分割(FSS)仅在支持集中提供一些标注的情况下快速适应模型来分割查询集中以前未知类别。模型是在带有足够标注信息的基础类上进行训练,然后在新颖的类上进行测试。在测试过程中,新类的信息是由支持集中少数可用带注释的样本提供,模型是需要根据支持集中提供的信息去定位查询集中的目标对象。
目前的FSS方法[45],[33],[54],[24],[47]可以是由通用的编码器-解码器结构提取,如图所示在图1中。编码器通常是一个深度卷积网络(即VGG[36]和ResNet[14])处理查询和分别支持图像以产生深层特征。然后,查询和支持特征和支持掩码一起送入解码器中,然后输出查询样本定位出目标对象的预测结果。
最近提出的PFENet[41]在流行的FSS基准上取得了令人鼓舞的表现,并且它成为最新工作的强大基线[51],[19],[2]。如在[54],[41]中所观察到的,直接将从固定编码器提取的高级特征(例如,ResNet中4层)馈送到可训练解码器导致性能降低,因为解码器将过度依赖于高级特征。在训练期间进行预测,导致对基础类的严重过度拟合。因此,PFENet通过计算查询和支持高级特征之间的最大一对一相关响应,将查询和支持的高级语义线索转换为类不可知先验掩码。然后先验掩码和查询和支持图像的中级特征(ResNet的2-3层)一起送入解码器。提供更多提示以更好地识别目标。简单但有效的先验的掩码生成方法在FSS中获得更好的结果,而我们发现两个主要瓶颈限制了性能。
未充分利用的高层上下文线索。
强大的场景解析模型通过充分利用高层特征的语义背景实现了突破性的改进(例如,PPM[59]和ASPP[6])。然而,目前PFENet的掩码生成方法只是计算元素与元素之间的相关性,而没有考虑有利于密集视觉感知的重要的周围环境信息。因此,我们替代性地使用了上下文感知先验掩码(CAPM),它是通过对区域相关性进行建模而得到的。与元素相关性不同,特征斑块编码了更多的区域空间信息,可以作为额外的提示来促进密集标签任务。
噪声的和不必要的反应。
在[41]中,对查询样本的高级先验指导是通过在所有支持特征中取最大响应来获得的,而据观察,最大值很容易受到具有局部相似性(即颜色和纹理)但具有不同语义标签的噪声特征的影响。重要的是,当涉及到更多的上下文线索时,目前的无参数掩码生成范式会产生大量不必要的反应,使得生成的掩码不能清楚地表明感兴趣的区域。为了缓解这个问题,我们加入了一个有效而又高效的模块名为噪声抑制模块(NSM),根据查询和支持特征之间的相关分布,筛选出无用的激活,进一步提高先验掩码的质量。
为此,我们将PFENet与提议的上下文感知先验掩码(CAPM)和噪声抑制模块(NSM)结合起来,名为PFENet++的增强型模型在1-和5-shot的设置中都明显优于PFENet以及所有其他竞争对手。虽然只引入了一些额外的可学习参数,但所提出的CAPM和NSM仍能很好地泛化到用于预训练特征提取器的ImageNet[31]中不存在的新类别。我们在本文中的贡献
据我们所知,所提出的Context-aware Prior Mask (CAPM)是第一个利用查询和支持特征之间的区域上下文关联性来解决少数镜头分割问题的设计。
通过减轻冗余的不相关的相关反应,噪声抑制模块(NSM)进一步提高了CAPM带来的改进。
PFENet++在流行的基准上达到了新的最先进的性能,而没有降低模型的效率,新的设计也给其他最新的方法带来了相当大的改进。
在这里插入图片描述
在这里插入图片描述

相关工作

语义分割

FCN[34],这是第一个为语义分割设计的框架。语境信息有助于根据周围的提示来识别单个元素,因此,接受域对于语义分割是至关重要的。为此,扩张卷积[4]、[49]
[6]。[48]、全局集合[23]和金字塔集合[59]、[58]、[15]被采用,以帮助扩大接受区。采用了这些方法来帮助扩大接收场,它们取得了显著改善。同时,为了有效利用长距离的语义关系,基于注意力的模型[55],[17], [50], [16], [60]已经蓬勃发展,达到了一个新的最先进的性能。
的性能。然而,强大的分割模型不更新模型的参数下不能应对以前未见过的类别。

小样本学习

基于元学习[3], [10],[32],其目的是获得一个模型,该模型可以在几个适应性的过程中迅速推广到 适应新的下游应用,以及度量学习[42]、[39]、[37]、[52]、[27]、[11],学习产生新类别的鉴别性表示。此外,考虑到深度学习的数据驱动的文献,数据扩增技术帮助模型实现更好的性能。通过在少数标记数据的基础上合成新的样本或特征[56], [13], [46]。尽管少量学习在图像识别方面取得了 在图像识别方面取得了巨大的进步,

小样本分割

FSS(Few-Shot Segmentation)要求模型只用几个注释就能对目标区域进行快速分割[29], [61], [40], [20]。OSLSM[33]在分割中正式引入了这一设置,并提供了一个解决方案,即为每个任务印上分类器的权重。PL[8]中使用了Prototypical Network[37]的思想,其预测是基于查询像素和支持原型之间的余弦相似度。此外,PANet[45]中还引入了原型对齐正则化,以帮助
纠正预测。原型混合模型(PMMs)[47]将不同的图像区域与多个原型相关联,通过期望值
最大化(EM)算法。预测也可以通过卷积产生,类似于[21]中提出的关系模块。CANet[54]将支持和查询特征连接起来,并采用迭代优化算法并采用迭代优化模块(IOM)来配合
迭代优化模块(IOM)来完成预测的细化工作。PPNet[24]基于超级像素构建了部分
支持原型。PFENet[41]利用从预训练的骨干网中获得的先验掩码指导,帮助定位目标区域。
并利用特征丰富模块(FEM)来解决查询和支持样本之间的空间不一致问题。最近,RePRI[2]提出了一个过渡性推理策略,与其他现有方法相比,它能更好地利用支持集监督,比其他现有的方法更好。本文的贡献主要是遵循PFENet[41]中提出的先前掩码指导的原则

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值