ASGNet论文和代码解读2

最新推荐文章于 2024-08-10 08:03:42 发布

是七叔呀

最新推荐文章于 2024-08-10 08:03:42 发布

阅读量492

点赞数

分类专栏：深度学习文章标签：深度学习人工智能神经网络计算机视觉

本文链接：https://blog.csdn.net/m0_46378271/article/details/124929945

版权

深度学习专栏收录该内容

53 篇文章 13 订阅

订阅专栏

论文地址：Adaptive Prototype Learning and Allocation for Few-Shot Segmentation
论文代码：ASGNet

Abstract

原型学习被广泛应用于少样本分割。通常，通过对全局对象信息进行平均，从支持特征（support feature）中获得一个单一的原型。然而，使用一个原型来表示所有的信息可能会导致歧义。在本文中，我们提出了两个新的模块：超像素引导聚类(SGC)和引导原型分配（GPA），用于多种原型的提取和分配。具体来说，SGC是一种无参数和无训练的方法，它通过聚合相似的特征向量来提取更有代表性的原型，而GPA能够选择匹配的原型来提供更准确的指导。通过将SGC和GPA结合在一起，我们提出了自适应超像素引导网络(ASGNet)，这是一个轻量级模型，能够适应对象尺度和形状变化。此外，我们的网络可以很容易地推广到k-shot分割，有显著的提升并且没有额外的计算成本。特别，我们使用COCO数据集评估显示，ASGNet在5-shot分割中比最先进的方法的准确率超过了5%。

存在的问题及解决方案Introduction

目前的Few-Shot分割网络通常从查询图像和支持图像中提取特征，然后提出不同的特征匹配方法和从支持图像到查询图像的目标掩码传输方法。特征匹配和掩码传递通常采用原型特征学习技术。原型学习技术将支持图像的掩码目标对象（masked object features）压缩为一个或几个原型特征向量。然后，在查询图像中寻找相似特征的像素位置来分割目标。

原型学习的一个主要优点是原型特征比像素特征对噪声更有鲁棒性。然而，原型特征不可避免地会丢失空间信息，这在支持图像和查询图像的对象外观差异较大时非常重要。此外，大多数的原型学习网络仅仅通过掩码平均池化来生成单个的原型从而丢失了信息的辨别能力。

在这项工作中，我们提出了一种新的原型学习技术，以解决现有的一些主要缺点。特别是，我们想要根据图像内容自适应地改变原型的数量和它们的空间范围，使原型具有内容自适应和空间感知能力。这种自适应的多原型策略对于处理不同图像中物体尺度和形状的巨大变化非常重要。从直觉上看，当一个物体占据图像的很大一部分时，它携带了更多的信息，因此需要更多的原型来代表所有必要的信息。相反，如果对象比较小，背景的比例比较大，那么一个或几个原型就足够了。此外，我们希望每个原型的支持区域(空间范围)能够适应支持图像中出现的对象信息。具体来说，我们的目标是根据特征相似度将支持特征划分为几个有代表性的区域。我们同时也希望能够自适应地选择更重要的原型来在查询图像中找到更相似的特征。由于在不同的图像区域和不同的查询图像中可能出现不同的对象部分，因此我们希望在查询图像中动态分配不同的原型以进行特征匹配。例如，在查询图像中对象的某些部分可能被遮挡，我们希望动态地选择与查询图像中可见部分相对应的原型。

我们利用自适应超像素引导网络(ASGNet)来实现这种自适应、多原型学习和分配，ASGNet利用超像素来适应原型的数量和支持区域。特别地，我们提出了构成ASGNet核心的两个模块:超像素引导聚类(SGC)和引导原型分配(GPA)。

SGC模块对支持图像进行基于特征的超像素快速提取，得到的 $\color{red}{超像素质心作为原型特征}$ 。由于超像素形状和数量对图像内容是自适应的，因此生成的原型也变得具有适应性。
GPA模块使用一种类似注意力的机制来 $\color{red}{分配大多数相关的支持原型特征}$ 。

综上所述，SGC模块从原型数量及其空间扩展两方面提供了自适应原型学习，GPA模块在处理查询特性时提供了对所学原型的自适应分配。这两个模块使ASGNet高度灵活并适应可变对象形状和大小，允许它更好地泛化看不见的对象类别。

Proposed Method

在这一部分中，我们首先介绍了提出的两个原型生成和匹配模块，即超像素引导聚类模块（SGC）和引导原型分配模块（GPA）。然后，我们讨论了这两个模块的自适应能力。然后，我们介绍了整个网络体系结构，称为自适应超像素引导网络（ASGNet），它将SGC和GPA模块集成在一个模型中。总体结构如图2所示。最后，我们阐述了ASGNet中的k-shot设置。
在这里插入图片描述

Superpixel-guided Clustering（超像素引导聚类）

SGC的核心思想受到超级像素采样网络（SSN）[13]和MaskSLIC[12]的启发。SSN是第一个用于超级像素分割的端到端可训练深度网络。SSN的关键贡献是将SLIC[1]中的最近邻运算转化为可微运算。传统的SLIC超像素算法采用k均值迭代聚类，分两步进行：像素超像素关联和超像素质心更新。基于颜色相似性和邻近性，将像素分配给不同的超像素质心。具体而言，输入图像I∈ Rn×5通常位于具有n个像素的五维空间（labxy），其中lab表示CIELAB颜色空间中的像素向量，xy表示像素位置。迭代聚类后，该算法输出关联图，其中每个像素n被分配给m个超级像素中的一个。

这种简单的方法启发了我们一个深刻的想法，即以聚类的方式将特征映射聚合为多个超级像素质心，这里超级像素质心可以作为原型。因此，我们不计算图像空间中的超像素质心，而是估计通过对相似特征向量进行聚类，在特征空间中进行分类。算法1描述了整个SGC过程：
在这里插入图片描述