第二十章：CANet:具有迭代细化和专注少样本学习的无类别分割网络

Joney Feng

已于 2023-08-03 11:08:41 修改

阅读量703

点赞数 1

文章标签：学习深度学习人工智能机器学习神经网络 cnn

于 2023-07-17 15:38:22 首次发布

本文链接：https://blog.csdn.net/ADICDFHL/article/details/131766623

版权

&原文信息

原文题目：《CANet: Class-Agnostic Segmentation Network with Iterative Refinement and Few-shot Learning》

原文引用：Zhang C, Lin G, Liu F, et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5217-5226.

原文链接：https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_CANet_Class-Agnostic_Segmentation_Networks_With_Iterative_Refinement_and_Attentive_Few-Shot_CVPR_2019_paper.pdfhttps://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_CANet_Class-Agnostic_Segmentation_Networks_With_Iterative_Refinement_and_Attentive_Few-Shot_CVPR_2019_paper.pdf

0.摘要

最近在语义分割方面的进展是由深度卷积神经网络和大规模标注图像数据集推动的。然而，像素级别的数据标注是繁琐和昂贵的。此外，训练好的模型只能在一组预定义的类别中进行预测。在本文中，我们提出了CANet，一种无类别偏见的分割网络，可以在只有少量标注图像的情况下对新类别进行少样本分割。我们的网络由两个分支的密集对比模块和迭代优化模块组成，前者在支持图像和查询图像之间进行多层次特征比较，后者在预测结果上进行迭代优化。此外，我们引入了一种注意力机制，以在k-shot学习的设置下有效地融合来自多个支持示例的信息。在PASCAL VOC 2012数据集上的实验表明，我们的方法在1-shot分割和5-shot分割方面分别达到了55.4%和57.1%的平均交并比分数，相比于现有技术方法，分别提高了14.6%和13.2%。

1.引言

深度卷积神经网络在许多视觉理解任务中取得了重大突破，包括图像分类[13,9,30]、物体检测[27,8,26]和语义分割[16,2,20]。其中一个关键原因是大规模数据集（如ImageNet [4]）的可用性，使得深度模型的训练成为可能。然而，数据标注是昂贵的，特别是对于密集预测任务，如语义分割和实例分割。此外，训练好的模型很难应用于预测新类别。与机器学习算法相比，人类在只看到少数示例时就能轻松地从图像中分割出一个新概念。人类和机器学习算法之间的差距促使我们研究少样本学习，旨在学习一个模型，能够在稀缺标注训练数据的情况下很好地泛化到新类别。

我们的网络包括一个两个分支的密集对比模块，其中一个共享的特征提取器从查询集和支持集中提取表示进行比较。密集对比模块的设计灵感来自于图像分类任务中的度量学习[37,31]，其中距离函数评估图像之间的相似性。然而，与每个图像都有一个标签的图像分类任务不同，图像分割需要对具有结构化表示的数据进行预测。直接将度量学习应用于密集预测问题是困难的。为了解决这个问题，一种直接的方法是对所有像素对进行比较。然而，一幅图像中有数百万个像素，比较所有像素对的计算成本极高。相反，我们的目标是从支持图像中获取一个全局表示进行比较。全局图像特征在分割任务中被证明是有用的[19,40,3]，可以通过全局平均池化轻松实现。在这里，为了只关注分配的类别，我们在前景区域上使用全局平均池化来过滤掉无关信息。然后将全局特征与查询分支中的每个位置进行比较，这可以看作是一种密集形式的度量学习方法。

在少样本学习的设置下，网络应能处理在训练过程中从未见过的新类别。因此，我们的目标是从卷积神经网络中挖掘可转移的表示用于比较。正如特征可视化文献[39,38]所观察到的那样，低层次的特征与低级线索（如边缘和颜色）相关，而高层次的特征与对象级概念（如类别）相关。我们关注可能构成未见类别共享的对象部分的中层特征。例如，如果CNN在训练时学习到了一个与车轮相关的特征，这个特征在新的车辆类别（如卡车和公交车）上进行特征比较时也可能是有用的。我们从CNN中提取多层次的表示进行密集比较。

由于同一类别内存在外观变化，同一类别的对象可能只共享少数相似的特征。密集特征比较不足以引导整个对象区域的分割。然而，这给出了一个重要的线索，即对象的位置。在半自动分割文献中，针对类别无关的分割给出了弱标注，例如带有点击或涂鸦标注的交互式分割[36,14]和带有边界框或极端点先验的实例分割[10,21]。在训练过程中学习到了定位对象区域的可转移知识。受到半自动分割任务的启发，我们希望在给定密集比较结果作为先验的情况下逐渐区分对象和背景。我们提出了一个迭代优化模块（IOM），它学习迭代地改进预测结果。改进以递归形式进行，即将密集比较结果和预测的掩膜发送到IOM进行优化，然后将输出递归地发送到下一个IOM。经过几次迭代的改进，我们的密集比较模块能够生成细粒度的分割图。在每个IOM内部，我们采用残差连接来有效地将预测的掩膜纳入到最后一个迭代步骤中。图1显示了我们的单次分割网络的概述。

以前的k-shot分割方法基于1-shot模型，它们使用非可学习的融合方法来融合单个1-shot结果，例如对1-shot预测或中间特征进行平均。相反，我们采用了一种注意机制来有效地融合来自多个支持示例的信息。

为了进一步减少少样本分割的标注工作量，我们探索了一种新的测试设置：我们的模型使用带有边界框标注的支持集来在查询图像中进行分割。我们在PASCAL VOC 2012数据集和COCO数据集上进行了全面的实验证明了我们网络的有效性。本文的主要贡献总结如下。

• 我们开发了一种新颖的双分支密集比较模块，能够有效地利用来自CNN的多层特征表示进行密集特征比较。

• 我们提出了一个迭代优化模块，以迭代的方式对预测结果进行改进。迭代改进的能力可以泛化到少样本学习中的未见类别，生成精细的分割图。

• 我们采用了注意机制，有效地融合了k-shot设置中多个支持示例的信息，这优于非可学习的融合方法。

• 我们证明，即使给定了带有弱标注（例如边界框）的支持集，我们的模型仍然可以达到与使用昂贵的像素级标注支持集相当的性能，这显著减少了少样本分割中新类别的标注工作量。

• 在PASCAL VOC 2012数据集上的实验证明，我们的方法在1-shot分割和5-shot分割的平均交并比得分分别为55.4%和57.1%，分别比最先进的结果提高了14.6%和13.2%。

图1 - 我们提出的单次分割网络的概览。我们的框架包括一个密集比较模块（DCM）和一个迭代优化模块（IOM）。只给定一个有注释的训练图像，我们的网络能够对具有新类别的测试图像进行分割，并迭代地优化结果。

2.相关工作

语义分割是将图像中的每个像素分类到一组预定义的类别中的任务[16,2,20,15,17]。最先进的方法基于完全卷积网络（FCN），通常使用经过预训练的用于分类的卷积神经网络（CNN）作为骨干架构。为适应密集预测的任务，全连接层被一个卷积层替代，该卷积层用于预测每个像素的标签。为了捕捉抽象的特征表示，CNN采用连续的池化操作或卷积步幅来减小特征图的空间分辨率。然而，这与输出应具有高分辨率的密集预测任务相冲突。为了平衡输出分辨率和网络的感受野，常常在密集预测任务中使用扩张卷积[2]。扩张卷积删除最后几层中的下采样操作，并通过插入孔来扩大卷积滤波器的感受野。在我们的模型中，我们也采用了扩张卷积来保持空间分辨率。在全监督分割中，训练一个FCN模型需要大量昂贵的像素级标注图像，而且一旦训练好一个模型，它不能对新类别进行分割。相反，我们的模型可以通过只有少数标注示例来推广到任何新的类别。

少样本学习旨在学习可转移的知识，以便将其推广到具有稀缺标记训练数据的新类别。关于少样本分类存在许多形式，包括具有记忆的递归神经网络[28,23]，学习微调模型[6,25]，网络参数预测[1,35]和度量学习[31,37,11]。基于度量学习的方法在少样本分类任务中取得了最先进的性能，并且具有快速和前向预测的特点。我们的工作与关系网络[37]最相关。关系网络元学习了一个深度距离度量来比较图像并计算分类的相似度得分。网络包括一个嵌入模块，用于生成图像的表示，以及一个关系模块，用于比较嵌入并输出相似度得分。这两个模块都是卷积操作的形式。我们网络中的密集比较模块可以看作是在密集形式上扩展关系网络，以应对分割任务。

（“度量学习是一种机器学习方法，旨在通过学习一个度量（或距离）函数来衡量样本之间的相似性或差异性。度量学习的目标是通过学习一个有效的度量函数，使得在特征空间中相似的样本之间的距离较小，不相似的样本之间的距离较大。传统的机器学习算法通常基于特征向量进行建模和分类，但在某些任务中，特征向量的表示可能不足以准确地衡量样本之间的差异。度量学习的思想是通过学习一个适当的度量函数，可以更好地捕捉样本之间的相似性和差异性，从而提高模型的性能。度量学习可以根据任务的不同采用不同的学习策略和算法。常见的度量学习方法包括欧氏距离学习、马氏距离学习、核函数学习等。这些方法可以通过最大化类内距离、最小化类间距离或优化其他度量指标来学习适合任务的度量函数。度量学习在许多领域中都有广泛的应用，如图像检索、人脸识别、聚类分析等。通过学习合适的度量函数，可以改善模型在相似性度量任务中的性能，提高模型的泛化能力和鲁棒性”）

少样本语义分割。之前关于少样本语义分割的工作采用了两个分支结构。Shaban等人[29]首次在语义分割中采用了少样本学习。支持分支直接预测查询分支中用于分割的最后一层的权重。在[24]中，支持分支生成一个嵌入，将其作为附加特征融合到查询分支中。我们的网络也采用了两个分支的设计。然而，与之前的工作不同，我们网络中的两个分支共享相同的骨干网络。之前的方法中的模型主要关注1-shot的设置，当将1-shot扩展到k-shot时，它们独立地将1-shot方法应用于每个支持示例，并使用不可学习的融合方法在图像级别或特征级别融合单个预测结果。例如，Shaban等人[29]提出使用逻辑或操作来融合单个预测的掩码，Rakelly等人[24]对不同支持示例生成的支持分支中的嵌入进行平均。相反，我们采用了一种可学习的方法，通过注意机制有效地融合多个支持示例的信息。

3.任务描述

假设我们的模型在一个包含类别集合Ctrain的数据集上进行训练，我们的目标是使用训练好的模型在一个包含新类别Ctest的不同数据集上进行预测，其中只有少量标注样本可用。直观地说，我们训练模型使其具有以下能力：对于一个新类别c不属于Ctrain，当模型只看到这个类别的少量图片时，能够从图像中分割出该类别。一旦模型训练完成，参数被固定，并且在新数据集上测试时不需要进行优化。我们使用情节范式[33]来处理少样本场景，以使训练和测试保持一致。具体而言，给定一个k-shot学习任务，每个情节由以下两部分组成：

1)一个支持（训练）集S=f(xi s;ysi(c))gk i=1，其中xi s i s 2 RHi×Wi×3是一个RGB图像，ysi(c)2 RHi×Wi是支持图像中类别c的二进制掩码；

2)一个查询（测试）集Q=fxq;yq(c)g，其中xq是查询图像，yq(c)是查询图像中类别c的真实掩码。

模型的输入是支持集S和查询图像xq，输出是查询图像中类别c的预测掩码y^q(c)。由于一个查询图像xq中可能有多个类别，当分配不同的标签c时，其真实查询掩码也会不同。图1显示了k=1时任务的示意图。

4.方法

我们提出了一个解决少样本语义分割问题的新框架。为了不失一般性，我们首先介绍了1-shot设置下的模型示意图。我们的网络由两个模块组成：密集比较模块（DCM）和迭代优化模块（IOM）。DCM在支持示例和查询示例之间进行密集特征比较，而IOM对预测结果进行迭代优化。图2（a）显示了我们框架的概述。为了将我们的网络从1-shot学习推广到k-shot学习，我们采用了一种注意机制来融合不同支持示例的信息。此外，我们提出了一种新的测试设置，使用带有边界框注释的支持图像进行少样本分割，随后将进行描述。

我们开发了一个两分支的密集比较模块，它密集地比较查询图像中的每个位置与支持示例，如图2（b）所示。该模块由两个子模块组成：特征提取器用于提取表示，比较模块用于执行特征比较。

4.1.密集比较模块

特征提取器。特征提取器旨在从CNN中获取不同层次的表示以进行特征匹配。我们使用ResNet-50作为特征提取器的主干网络。与之前的少样本分割工作一样，主干模型在ImageNet上进行了预训练。根据CNN特征可视化文献的观察，低层次的特征通常与低级线索（例如边缘和颜色）相关，而高层次的特征与对象级别的概念（如对象类别）相关。在少样本场景中，我们的模型应该适应任何未见过的类别。因此，我们不能假设在训练过程中学习到了与未见类别对应的特征。相反，我们专注于可能构成未见类别共享的对象部分的中层特征。ResNet中的层根据空间分辨率分为4个块，自然对应着4个不同层次的表示。我们选择block2和block3生成的特征进行特征比较，并在block3之后丢弃其他层。我们在block2之后的层使用扩张卷积来保持特征图的空间分辨率。block2之后的所有特征图都具有固定的尺寸，为输入图像的1/8。block2和block3之后的特征被连接并通过3×3卷积编码为256维。我们在第5.1.3节中研究了特征选择的影响。支持分支和查询分支都使用相同的特征提取器。在训练过程中，我们保持ResNet的权重固定。

密集比较。由于支持图像中可能存在多个对象类别和杂乱的背景，我们希望获得一个仅与目标类别相对应的嵌入向量进行比较。在这里，我们使用全局平均池化来将特征图压缩为特征向量。全局图像特征在分割任务中被证明是有用的[19,40,3]，可以通过全局平均池化轻松实现。在我们的网络中，我们只对前景区域的特征进行平均，以滤除不相关的区域。在我们从支持集中获得全局特征向量之后，我们将该向量与查询分支生成的特征图中的所有空间位置连接起来。这个操作旨在将查询分支中的所有空间位置与来自支持分支的全局特征向量进行比较。然后，连接后的特征图通过另一个具有256个3×3卷积核的卷积块进行比较。

为了实现高效，我们首先使用双线性插值将二值化的支持掩码下采样到与特征图相同的空间尺寸，然后将其与特征图进行逐元素乘法。结果是属于背景区域的特征变为零。然后，我们采用全局求和池化，并将结果向量除以前景区域的大小，以获得平均特征向量。我们将该向量上采样到与查询特征相同的空间尺寸，并将它们连接起来进行密集比较。

图2 - 1-shot语义分割的CANet。(a)我们网络结构的概述。(b)密集比较模块。(c)迭代优化模块。

图3 - k-shot语义分割的注意机制。我们使用softmax函数来对不同支持示例的注意模块的输出进行归一化处理。

4.2.迭代优化模块

由于同一类别内存在外观上的差异，密集比较只能匹配物体的一部分，这可能不足以准确地分割图像中的整个物体。我们观察到初始预测是关于物体大致位置的重要线索。因此，我们提出了一个迭代优化模块来迭代地优化预测结果。该模块的结构如图2（c）所示。该模块的输入是由密集比较模块生成的特征图和上一次迭代的预测掩码。直接将特征图与预测掩码进行连接作为额外的通道会导致特征分布不匹配，因为第一次前向传播没有预测掩码。因此，我们提出以残差形式将预测掩码纳入模块中：

其中，x是密集比较模块的输出特征；yt−1是上一次迭代步骤的预测掩码，Mt是残差块的输出。函数F(·)是特征x和预测掩码yt−1的串联，接着是两个具有256个卷积核的3×3卷积块。然后，我们添加两个具有相同数量卷积核的普通残差块。在此基础上，我们使用在Deeplab V3 [3]中提出的Atrous空间金字塔池化模块（ASPP）来捕捉多尺度信息。该模块由四个并行分支组成，分别包括三个带有6、12和18的空洞率的3×3卷积和一个1×1卷积。1×1卷积操作的是在全局平均池化下获得的图像级特征。然后，将得到的向量进行双线性上采样到原始空间尺寸。4个分支的输出特征进行串联，并通过具有256个卷积核的另一个1×1卷积进行融合。最后，我们使用1×1卷积生成最终的掩码，其中包括背景掩码和前景掩码。我们使用softmax函数对每个位置的得分进行归一化，输出前景和背景的置信度图。然后，将置信度图输入到下一个IOM进行优化。我们的最终结果通过将置信度图双线性上采样到与查询图像相同的空间尺寸，并根据置信度图对每个位置进行分类来得到。在训练时，为了避免迭代优化模块过拟合预测掩码，我们交替使用上一轮的预测掩码和空掩码作为IOM的输入。预测掩码yt−1以概率pr被重置为空掩码。这可以看作是整个掩码的dropout，是标准dropout [32]的扩展。与分割文献中以前的迭代细化方法[14,34,22]相比，我们的方法将细化方案与具有残差连接的模型集成在一起，使整个模型能够以前馈的方式运行，并进行端到端的训练。

图4 - (a) 使用像素级注释的CANet支持集。(b) 使用边界框注释的CANet支持集。

4.3.用于k-shot分割的注意力机制

为了在k-shot环境中高效地融合信息，我们使用注意力机制来融合不同支持示例生成的比较结果。具体来说，我们在DCM中的密集比较卷积旁边添加了一个注意力模块（参见图3）。注意力分支由两个卷积块组成。第一个卷积块具有256个3×3的卷积核，接着是3×3的最大池化。第二个卷积块具有一个3×3的卷积核，后面是一个全局平均池化。注意力分支的结果作为权重λ。然后，所有支持示例的权重通过softmax函数进行归一化：

最终的输出是由不同支持示例生成的特征的加权和。

4.4.边界框标注

由于我们密集比较模块的本质是将查询图像中的每个位置与支持示例提供的全局表示进行密集比较，我们探索了一种新的支持集注释形式，即使用边界框。与像素级注释相比，边界框注释使用矩形框来表示对象区域，这在目标检测任务中经常使用。标注边界框注释比像素级标注更便宜。我们通过将整个边界框区域视为前景来放松支持集。我们在这个设置下测试我们的模型，以评估我们框架的能力。两个测试设置的比较结果如图4所示。

表1 - 在PASCAL-5i数据集上的结果。我们提出的方法在两个评估指标下均优于所有先前的方法，并取得了新的最先进性能（加粗显示）

5.实验

为了评估我们提出的方法的性能，我们在PASCAL VOC 2012数据集和COCO数据集上进行了大量实验。我们的网络是端到端训练的。损失函数是输出图中所有空间位置上交叉熵损失的平均值。我们使用PyTorch库在Nvidia Tesla P100 GPU上使用SGD进行了200个epoch的训练。我们将学习率设置为0.0025，并将概率pr设置为0.7。在PASCAL-5i上，我们使用一个包含4个episode的小批量进行训练，在COCO上使用8个episode。在推理时，我们在初始预测之后进行4次迭代优化预测结果。

评估指标。以前的工作在评估指标上有一些细微的差异。Shaban等人[29]使用每个类别的前景交并比（IoU）来衡量，并使用所有类别的平均IoU（meanIoU）来报告结果。而在[24,5]中，他们忽略了图像的类别，并计算了所有测试图像上前景IoU和背景IoU的平均值（FB-IoU）。由于以下原因，我们选择meanIoU评估指标进行分析实验：

1）不同类别的测试样本数量不平衡（例如，类别sheep有49个样本，而类别person有378个样本）。忽略图像的类别可能导致对具有更多图像的类别的结果有偏见。此外，我们可以通过meanIoU评估指标观察我们模型在不同类别中的有效性。

2）由于大多数对象相对于整个图像来说都很小，即使模型无法对任何对象进行分割，背景IoU仍然可以非常高，因此无法反映模型的能力。

3）二值分割文献中更常用的是前景IoU（例如视频分割和交互式分割）。

尽管如此，我们仍然在两个评估指标下将我们的结果与以前的工作进行比较。

5.1.PASCAL-5i

PASCAL-5i是在[29]中提出的用于少样本语义分割的数据集。它基于PASCAL VOC 2012的图像和来自SDS [7]的额外注释构建而成。PASCAL VOC的20个对象类别被均匀分为4个拆分，其中三个拆分用于训练，一个拆分用于测试。在测试时，从测试拆分中随机选择1000个支持-查询对进行采样。关于PASCAL-5i的更多细节可以在[29]中找到。

表2 - 使用不同支持集注释的评估结果。我们的模型使用边界框注释的支持集可以达到与使用像素级注释相当的性能。

5.1.1.与现有技术方法的比较

我们在表1中将我们的模型与最先进的方法进行了比较。表1(a)显示了在meanIoU评估指标下的结果，表1(b)显示了在FB-IoU评估指标下的结果。对于[29]在FB-IoU评估指标下的性能，我们引用了在[24]中重新复现的结果。我们的模型在两个评估指标下都显著优于最先进的方法。特别是，我们的meanIoU得分在1-shot任务中比最先进的结果高出14.6％，在5-shot任务中高出13.2％。

定性结果。图5展示了我们分割结果的一些定性示例。请注意，对于给定的相同查询图像，在呈现不同的支持示例时，我们的模型能够分割出不同的类别（请参见图5中的第5个和第6个示例）。

5.1.2.边界框标注的实验

我们在测试时使用带有边界框注释的支持集对CANet进行评估。我们从PASCAL VOC 2012数据集和SDS [7]中获取边界框注释。支持掩码是一个实例边界框内的区域，而不是支持图像中的所有实例。实例是随机选择的。如表2所示，使用边界框注释的支持集的性能与使用昂贵的像素级注释的支持集的结果相当，这意味着我们的密集比较模块能够承受边界框内背景区域引入的噪声。

5.1.3.消融研究

我们在PASCAL-5i数据集上进行了大量的消融实验，以检查我们网络中不同组件的有效性。所有结果都是在PASCAL-5i数据集的4个拆分上的平均mean IoU。

特征比较。在表3中，我们比较了使用ResNet-50中不同级别特征进行特征比较的模型变体。在所有情况下，我们将特征编码为256维进行比较，并且不采用迭代优化。我们使用单个块和多个块进行特征比较。当使用单个块进行比较时，block3表现最好。当使用多个块进行比较时，block2和block3的组合获得最佳结果。原因是block2对应相对低层次的线索，单独使用不足以匹配物体的部分。而block4对应高层次的特征，例如类别，并且包含大量参数（2048个通道），在少样本设置下很难优化。block2和block3的组合最适合匹配类别无关的物体部分。我们还使用VGG16作为特征提取器进行了实验。我们选择了第2、3和4阶段的特征（共5个阶段）。以VGG为骨干的最终多尺度测试结果为54.3%。与ResNet50版本（55.4%）相比，性能仅下降了1.1%，仍然明显优于最先进的结果。

迭代优化模块。为了验证我们提出的迭代优化模块的有效性，我们将我们的网络与不使用额外IOM进行优化的基线模型进行了比较，即CANet的初始预测（CANet-Init）。我们还将我们的迭代优化方案与DenseCRF [12]进行了比较，DenseCRF是在分割文献中广泛使用的一种后处理方法，用于改进分割图。表4显示了不同模型变体的结果。结果显示，迭代优化相对于初始预测提高了2.8%。DenseCRF并没有显著改善少样本分割预测。我们可视化了结果，并发现对于成功定位大部分物体区域的预测掩码，DenseCRF可以有效改善分割结果，特别是在物体边界区域。然而，对于失败的掩码，例如物体的错误定位，DenseCRF会扩展错误的正例区域，这会降低IoU分数。而我们的IOM则可以以可学习的方式有效填充物体区域并移除不相关的区域。我们在图6中可视化了迭代优化过程的中间结果。

注意力机制 vs 特征融合 vs 掩码融合。在k-shot设置中，我们将我们的注意力机制与先前工作中的几种解决方案进行了比较：

1)特征级平均融合。我们尝试了[24]中的方法，即对不同支持样本生成的特征进行平均。

2)掩码的逻辑OR融合。Shaban等人[29]使用1-shot模型对每个支持样本进行预测，并使用逻辑OR操作来融合各个预测掩码。逻辑OR操作的意思是，如果任何支持样本将某个位置预测为前景，则将其预测为前景。

3)掩码的平均融合。

此外，我们还尝试了平均操作来融合各个1-shot预测的置信度图。在表5中报告了使用不同融合方法的CANet的结果。我们的注意力机制表现最好，并且相对于1-shot基线带来了最大的增益。这表明，学习的注意力模块在从不同的支持样本中融合信息方面比特征级别或图像级别的不可学习的融合方法更有效。使用逻辑OR操作来融合预测的掩码与1-shot结果相比没有显示出改进。

多尺度评估。我们还尝试了常见的分割文献中常用的多尺度评估方法。具体而言，我们通过[0.7, 1, 1.3]对查询图像进行重新缩放，并对它们的预测结果进行平均。多尺度评估在1-shot和5-shot设置中分别提高了1.4%和1.3%的平均IoU。

表3 - 对ResNet中特征选择的消融实验。在block2和block3之后的特征组合取得了最好的结果。

表4 - 对迭代优化模块的消融实验。CANet-Init表示CANet的初始预测，没有额外的优化。我们的迭代优化方案比基线模型提高了2.8%，在细化分割图方面比DenseCRF更有效。

图5 - 在PASCAL-5i数据集上进行1-shot分割的定性示例。

第一行是查询图像和带有真值注释的支持图像（右下角）。

第二行是我们的预测结果。

请注意，第5个和第6个示例具有相同的查询图像，当呈现不同的支持示例时，我们的模型能够分割出不同的类别。

图6 - 迭代优化过程的可视化。

第一列显示了带有真值掩码注释的查询和支持图像。

其余列显示了我们的迭代优化结果。

表5 - 不同5-shot解决方案的比较。我们的注意力方法表现最好，并且在平均IoU得分上相对于1-shot基线带来了最大的增量。

5.2.COCO

COCO 2014 [18]是一个具有挑战性的大规模数据集，包含80个物体类别。原始数据集分别包含82,783张用于训练和40,504张用于验证的图像。直接在原始数据集上进行实验非常耗时和计算量大。因此，我们选择原始数据集的一个子集来评估我们的模型并进行进一步的研究。我们选择了40个类别用于训练，20个类别用于验证，另外20个类别用于测试，分别包含39,107个样本（训练集），5,895个样本（验证集）和9,673个样本（测试集）。训练图像来自COCO的训练集，而验证和测试图像来自COCO的验证集。对于1-shot任务，我们将我们的网络与不使用额外迭代优化的基线模型（CANet-Init）进行了比较，对于5-shot任务，我们将我们的注意力机制与第5.1.3节中描述的三种不可学习的融合方法进行了比较。结果如表6所示。在1-shot设置中，我们的迭代优化方案提高了4.1%的平均IoU。多尺度评估显示额外的3.3%增益。在5-shot设置中，我们的注意力机制优于所有不可学习的方法。多尺度评估获得了额外的1.9%增益。

（1-shot任务和5-shot任务是指在机器学习和深度学习中的一种学习范式，特别是在元学习（meta-learning）和迁移学习（transfer learning）领域中常被使用。 1-shot任务指的是在模型只有一次机会观察到一个样本（或一个样本集合）的情况下进行学习和推断。在这种情况下，模型需要根据这个样本来进行预测或分类。例如，在图像分类中，1-shot任务可能是指模型只能从一个类别的一张图像中学习，然后在给定一个测试图像时，进行分类的任务。 5-shot任务则是在模型有五次机会观察到样本（或样本集合）的情况下进行学习和推断。在这种情况下，模型可以从多个样本中学习和获取更多的信息，然后在测试时进行预测或分类。以图像分类为例，5-shot任务可能是指模型可以从每个类别中观察到五张图像，然后在测试时对未见过的图像进行分类。这些任务的目标是评估模型在极端小样本情况下的学习和泛化能力。通过设计和评估这些任务，可以更好地了解模型在面对少量样本时的表现，并研究如何设计更加鲁棒和高效的学习算法。同时，这些任务也提供了对迁移学习和元学习方法进行评估和比较的基准。）