基于zero-shot分割的多尺度非新分割消除方法
摘要
- Few-shot分割的目的是设计一个泛化模型,在训练过程中,在少数支持图像的指导下,将查询图像从不可见的类中分割出来,这些支持图像的类与查询的类一致。
- 在以往的研究中,存在着两个领域特有的问题,即空间不一致性和对可见类的偏向。
- 对于第一个问题,本文方法在多尺度上比较支持特征图和查询特征图,使其成为尺度不可知的。
- 为了解决可见类偏向问题,在可用的类上训练一个监督模型,称为基础学习器,以准确地识别属于所见类的像素。因此,后续元学习器有机会在集成学习模型的帮助下丢弃属于可视类的区域,该集成学习模型协调元学习器和基础学习器。
(a) BAM概述:元学习器利用支持特征和查询特征提取支持特征图,基学习器为基类提供指导,并通过集成引导元学习器关注新区域。
(b)本文方法。对元学习器译码器进行了改进,可以在多尺度下获得查询特征图。支持特征图与查询特征图在多尺度上进行比较,获得丰富的查询特征。将每个尺度上丰富的查询特征所得到的查询预测与基图以及它们融合得到的预测集成在一起。内部损失计算在不同的比例尺级别上,最终的预测是由基础图与融合查询特征图的预测进行集成得到的。
Preliminaries
任务描述
支持集:新类组成(K个新类,K-shot)
查询集:对应查询图像及其MASK
训练:从基本数据集中采样用于训练的支持集,查询图像及其ground truth组成的查询集,与所选支持集共享其类,在训练过程中将上述类视为新类,其中属于所选类的像素被分配为前景,而所有其他类的像素被视为背景
网上看到博客说的:训练任务中的支持集和查询集都是用于模型参数的学习,而测试任务的支持集是用于模型参数的学习、查询集用于模型的评估,支持集和查询集的具体数据不交叉,但是类别相同
重温特性丰富模块
有监督语义分割中的多尺度模块通常不提供在不同尺度下mask全局平均池化支持特征图(即支持原型)与平均池化查询特征图之间形成独立交互的机制。
例如,传统的多尺度架构将查询特征图、支持特征图和描述查询像素与支持的前景中至少一个像素相关的可能性的先验MASK进行单一过滤。不同于上述方法,FEM的内部丰富的模块分别对不同尺度的查询特征图进行滤波操作,并结合支持支持特征图和先验掩码进行滤波操作。
此外,FEM的尺度间交互模块在自顶向下路径中完成两个连续分辨率之间的信息传递,其中自顶向下路径由内部丰富的模块的输出组成,从高分辨率到低分辨率。在信息传递过程中,对层次结构的保留可以使信息从高分辨率逐步积累到低分辨率。
在这个模块中,每个分辨率只在自顶向下的方向上与它的邻居直接连接。因此,除了连续的分辨率对之外,其他分辨率对之间没有连接。因此,模块有机会决定获得的信息足以做出预测的尺度,而接下来的尺度会带来冗余。在此基础上,利用有限元中的信息集中模块对不同分辨率的特征图进行融合。
重温base and meta learner
典型的小样本分割方法使用元学习方法,这样,在给定属于同一新类的支持图像的情况下,利用在基类上训练模型获得的知识来预测属于新类的查询图像的掩码。
这个过程被称为元学习,因为学习任务在训练过程中从基类中采样,以模拟测试中的小样本设置,以便训练和测试条件匹配。然而,在测试过程中,在基类上训练会引入对它们的偏置,这阻碍了模型在新类上正常工作。为了解决这种偏差,引入了BAM,其中除了元学习器之外,还有一个基本学习器显式地处理已知类。在测试中使用已知类的相关信息,可以增强对新类的识别
训练BAM包括两个阶段,即基础训练和元训练。这两个学习器共享与特征编码器相同的主干。为了利用不同抽象级别上的表示,从编码器的不同层获得特征。在监督的方式下训练基础学习者,从而获得对基础类做出自信预测的能力。在元训练阶段,基本学习器的参数是固定的。
通过共享编码器提取支持图像和查询图像的特征,将ResNet-50 block-2和block-3后得到的特征用1×1卷积层拼接转换,分别用fsm和fqm表示。对ResNet-50 block-4后的查询特征fqb进行基学习器处理,由金字塔池化模块(PPM)和分类器组成的金字塔场景解析网络(PSPNet)进行解码,得到基类的概率图pfb。
这一步是至关重要的,因为基类是查询图像的背景类,而新类是前景,这是由元学习器预测的。支持掩码ms与fsm一起使用以获得支持原型,而查询特征,支持原型和先前的映射被连接起来,输入到元解码器。在元解码器的最后,得到输出背景和前景概率图p0m和p1m。
支持图像和查询图像的低级特征从编码器的中间层次获得,用fslow和fqLow表示,它们之间的Gram矩阵的Frobenius范数计算为调整因子ψ。ψ值越小,支持图像和查询图像的表示就越接近。换句话说,ψ越小,元学习器预测的可靠性越高,使得查询特征成为支持特征的代表。此外,p0m与pfb集成,使查询图像中属于非新区域的像素更接近基类。这种增强信息的使用使得相应的像素不太可能被预测为新奇的。合成的集合信息与p1m相连接,以产生最终的预测。
本文方法
多尺度集成模块的详细架构。改进后的解码器最后分别使用Xsiq和Xf进行多尺度特征的融合,并用于相应的辅助分类器。将所得到的丰富查询特征图与基图集成,得到多尺度查询预测
通过将1x1卷积应用于从block-2和block-3获得的特征映射的连接来使用中层特征。如Eq. 1和Eq. 2所示,我们分别表示属于支持图像和查询图像的中层特征,其中Enc表示中层特征提取器。
为了以类似于PFENet的方式获取先验映射,首先将高级查询和支持特性从RH×W ×C重新塑造为RHW ×C。之后,如Eq. 3和Eq. 4,分别计算高级查询和支持像素特征的行规范,其中◦cor响应Hadamard root,而diag输出矩阵的对角线元素作为列向量。
先验映射是通过将高级查询和支持像素之间的余弦相似矩阵沿行方向最大池化来计算的,如Eq. 5所示,其中⊘为Hadamard分割。
对fsm应用MASK全局平均池来提取支持原型vs,在Eq. 6中,R将Ms下采样到fsm的大小。
FEM取vs、Cq和fqm作为输入和输出N+1个丰富的查询特征图,其中N个对应N个不同尺度的丰富辅助特征图,最后一个是它们的融合,如式7所示。
Eq. 8中的CAUX表示一组分类器,其中前N个分类器对应于辅助分类器,辅助分类器对多尺度特征进行预测,而最后一个分类器负责从融合特征中推导出的预测。通过使用这些分类器,我们分别获得Eq. 1中每个比例尺的丰富查询特征图和融合特征图的背景和前景logit值。9和式11,其中⊕执行串联运算。
Eq. 13中的BaseLearner将fmq作为除background外所有类的预测概率的输入和输出之和。
虽然 Eq. 15和Eq. 16与BAM中的相同,但我们为每个辅助预测采用单独的集成模型,以使元模型在每个尺度上都能感知非新区域,受到BAM的启发,如Eq. 18和Eq. 19以及图2中用虚线覆盖的粉红色矩形框所示。
Eq. 20和Eq. 21分别计算辅助预测和集成前融合预测的交叉熵损失,Eq. 22和Eq. 23分别计算辅助预测和集成后融合预测的交叉熵损失。
如式24所示,所有损失累积起来最终更新网络。
实验结果