⭕️【读论文】Learning Spatial Similarity Distribution for Few-shot Object Counting

dearRongerr

已于 2024-08-12 20:45:31 修改

阅读量633

点赞数 22

分类专栏：读文献文章标签： pytorch 深度学习

于 2024-08-12 20:41:50 首次发布

本文链接：https://blog.csdn.net/2301_77549977/article/details/141139449

版权

读文献专栏收录该内容

18 篇文章 0 订阅

订阅专栏

领域内研究相同问题，在提取什么特征，怎么处理这些特征

Learning Spatial Similarity Distribution for Few-shot Object Counting - 郑之杰的个人网站 (0809zheng.github.io)

paper

2405.11770v1 (arxiv.org)

code：GitHub - CBalance/SSD: SSD: Learning Spatial Similarity Distribution for Few-shot Object Counting

摘要：

少样本目标计数的目标是计算查询图像中与给定示例图像相同类别的对象数量。现有方法在2D空间域内计算查询图像与示例之间的相似度，并执行回归以获得计数数量。然而，这些方法忽略了有关示例图像上相似度空间分布的丰富信息，这对匹配精度产生了显著影响。为了解决这个问题，我们提出了一种学习空间相似度分布（SSD）的网络，用于少样本目标计数，它保留了示例特征的空间结构，并计算查询特征与示例特征之间的4D相似度金字塔点对点相似度，捕获4D相似度空间中每个点的完整分布信息。我们提出了一个相似度学习模块（SLM），它在相似度金字塔上应用高效的中心枢轴4D卷积，将不同的相似度分布映射到不同的预测密度值，从而获得准确的计数。此外，我们还引入了一个特征交叉增强（FCE）模块，该模块相互增强查询和示例特征，以提高特征匹配的准确性。我们的方法在多个数据集上超越了最先进的方法，包括FSC-147和CARPK。

关键点解释：

少样本目标计数：这是一种计算机视觉任务，目的是在只有少量示例图像的情况下，计算图像中特定类别对象的数量。
空间相似度分布（SSD）：一种新提出的概念，强调在空间上相似度的分布情况，而不仅仅是相似度的总体度量。
4D相似度金字塔：通过在查询特征和示例特征之间计算点对点的相似度，构建一个四维的相似度表示，增加了空间分布的维度。
相似度学习模块（SLM）：一个网络模块，使用4D卷积来处理相似度金字塔，将不同的空间相似度分布映射到预测的密度值上。
中心枢轴4D卷积：一种高效的卷积方法，可能指的是以某个点为中心，对其周围的空间进行卷积操作。
特征交叉增强（FCE）模块：通过交叉增强查询图像和示例图像的特征，提高特征匹配的准确性。
性能提升：所提出的方法在公共数据集FSC-147和CARPK上取得了比现有方法更好的性能。

这种新方法通过更细致地考虑特征的空间分布和相似度的多维表示，提高了少样本目标计数任务的性能。

1 Introduction

视觉目标计数旨在计算查询图像中特定对象出现的次数，近年来受到了越来越多的关注。现有方法通常专注于特定领域，例如人群计数 [Shu 等人，2022年；Wang 等人，2020年；Abousamra 等人，2021年]、动物计数 [Arteta 等人，2016年] 或汽车计数 [Hsieh 等人，2017年]。这些方法通常依赖大量的数据来训练准确的计数模型。此外，它们仅限于对特定类别的对象进行计数，并且不能很好地泛化到新的类别。

为了克服这些限制，一种被称为少样本目标计数（Few-shot Object Counting，FSC）的新兴方法已经被引入，并随着一个数据集的出现而获得了极大的关注 [Ranjan 等人，2021年]。FSC 应对了使用仅有少量示例来对任意类别的对象进行计数的挑战。这使得模型能够泛化到未见过的类别，为训练过程中未遇到的各种场景类别提供了应用潜力。通过利用少量示例，FSC 为对象计数任务提供了一种更灵活、适应性更强的解决方案。

正如图1所示，现有的少样本目标计数方法通常遵循一个通用的工作流程。它们首先计算查询特征和示例特征之间的相似度，然后直接对相似度矩阵进行回归，或者在使用相似度矩阵和示例特征增强查询特征后再进行回归。在相似度计算方面，一些方法，如 [Ranjan 等人，2021年；Yang 等人，2021年；You 等人，2023年；Ðukić 等人，2023年] 所展示的，使用示例特征作为固定核执行与查询特征的卷积。然而，这种方法在卷积匹配过程中，核特征的分布保持固定，限制了其适应查询中不同大小和形状的对象特征的适应性。另一种方法，如 [Shi 等人，2022年；Lin 等人，2022年；Liu 等人，2022年] 中使用的方法，涉及对示例特征进行池化以获得 1×1 特征原型，然后计算查询中每个位置的特征向量与这些原型之间的余弦相似度。这种方法忽略了查询和示例特征的分布信息，计数性能变得依赖于先前特征提取和自注意力机制的性能。

为了准确定位物体的中心并生成适当的密度分布，我们利用与示例相比，每个部分（例如物体中心、边缘和背景）具有不同的相似度分布特征。具体来说，如图2所示，示例中物体中心的相似度分布在从中心位置向周围区域逐渐减少，而边缘的相似度分布在不同位置表现出变化。另一方面，除了背景区域外，背景在所有位置通常显示出较低的相似度值。利用这些模式，我们提出了一种新的方法，该方法在相似度计算过程中尝试保持示例的空间结构，并将其命名为学习空间相似度分布（SSD）。具体来说，这种方法产生一个4D相似度张量，它允许使用4D空间中的卷积操作灵活提取查询和示例特征之间的点对点相似度分布信息。通过卷积获得的特征使我们可以精确计算查询中每个位置的密度值。此外，我们引入了一个特征交叉增强（FCE）模块用于查询和示例特征。这使用相似度矩阵作为权重来相互增强特征，目的是为给定类别的对象实现更高的匹配精度。

详细讲解：

相似度分布特征：物体的不同部分（中心、边缘、背景）与示例之间的相似度分布是不同的。物体中心的相似度从中心向外逐渐降低，边缘的相似度在不同位置有变化，而背景的相似度普遍较低。
学习空间相似度分布（SSD）：这是一种新提出的方法，它在计算相似度时考虑了空间结构，即物体各部分之间的相对位置关系。这种方法生成一个四维的相似度张量，这个张量可以存储和表示物体各部分与示例之间的相似度信息。
4D相似度张量：这个张量是一个四维的数据结构，可以存储和处理大量的相似度数据。通过卷积操作，可以在这个四维空间中提取出查询对象与示例之间的相似度分布信息。
卷积操作：在4D相似度张量中使用卷积操作，可以有效地提取出查询对象与示例之间的相似度信息，这对于后续的密度值计算至关重要。
特征交叉增强（FCE）模块：这是一个增强特征的方法，它使用相似度矩阵作为权重，来增强查询对象和示例的特征。这样做的目的是提高物体匹配的准确性，尤其是在给定类别中。
密度值计算：通过上述方法提取的特征，可以用于精确计算查询对象中每个位置的密度值，这对于物体的中心定位和密度分布生成至关重要。

我们在两个著名的公共基准数据集上进行了全面的实验，即FSC-147 [Ranjan等人，2021]和CARPK [谢等人，2017]。结果清楚地表明，我们的方法超过了当前最先进方法的性能。我们的贡献可以总结如下：

我们设计了一个基于在相似度学习模块（SLM）中学习查询和示例特征之间的四维空间相似度分布的模型。该模型能够在全面整合点对及其周围相似度分布信息后，获得准确的计数结果。
在计算查询和示例特征之间的相似度之前，我们引入了一个特征交叉增强（FCE）模块，该模块增强了它们之间的交互，减少了目标对象与示例特征之间的距离，以实现更好的匹配性能。
在大规模计数基准测试，如FSC-147和CARPK上进行了广泛的实验，结果表明我们的方法优于现有的最先进方法。

基于学习查询和示例特征之间四维空间相似度分布的模型设计

相似度学习模块（SLM）：这是一个设计用来学习查询图像和示例图像特征之间相似度的模块，特别关注四维空间中的相似度分布。
四维空间相似度分布：模型考虑了空间的三个维度以及特征的相似度，形成了一个四维的数据结构，用以分析和比较查询和示例特征。
准确计数结果：通过综合考虑点对及其周围环境的相似度分布信息，模型能够提供准确的计数结果。
特征交叉增强（FCE）模块：在计算相似度之前，FCE模块被用来增强查询特征和示例特征之间的交互，通过减少它们之间的距离来提高匹配性能。
减少距离：FCE模块通过某种方式（可能是加权、融合或其他技术）减少目标对象特征与示例特征之间的差异，从而提高识别和匹配的准确性。
大规模计数基准测试：作者在大规模的数据集上进行了实验，这些数据集通常包含大量的图像和复杂的场景，用于测试模型在实际应用中的性能。
性能比较：实验结果表明，所提出的模型在这些基准测试中的表现优于现有的最先进方法，这表明了模型的有效性和潜在的应用价值。

图1

翻译：图1：现有方法与我们方法的比较。与先前方法中的特征相似性计算过程相比，我们的方法保留了示例的空间结构。每个位置都使用查询特征进行计算，在随后的卷积回归过程中，我们充分利用了查询和示例特征在点对点级别上的空间相似度分布信息。

详细讲解：

现有方法与我们方法的对比：图1展示了现有方法和提出方法之间的主要区别。在现有方法中，通常采用池化（pool）和余弦相似度（cosine）来计算特征相似性，并将这些相似性汇总到一个2D的密度图中。而在我们的方法中，相似性计算被扩展到了4D空间。
空间结构的保留：我们的方法特别强调了保留示例的空间结构。这意味着，与现有方法相比，我们的方法更加关注特征在空间上的分布和排列，而不仅仅是特征的聚合或平均值。
点对点的相似度计算：在提出的方法中，每个位置的相似度是通过与查询特征的点对点比较来计算的。这种计算方式允许模型更细致地理解特征之间的相似性，而不是仅仅依赖于整体的统计量。
卷积回归过程：在计算出点对点的相似度之后，我们的方法使用卷积操作来进行回归。这允许模型在回归过程中利用到相似度的分布信息，从而更精确地预测密度图。
4D相似度张量：我们的方法生成了一个4D的相似度张量，这增加了计算的维度，使得模型能够更全面地捕捉到查询特征和示例特征之间的相似性。
HxW的密度图：最终，我们的方法生成了一个高宽（HxW）的密度图，这个图反映了图像中对象的分布密度。与现有方法相比，我们的方法能够更精确地定位对象并生成密度图。

总的来说，这段文字描述了一种新颖的方法，该方法通过在更高维度上计算相似度，并在回归过程中利用这些信息，以提高对象计数的准确性。这种方法特别强调了空间结构的重要性，并使用卷积操作来增强模型对特征相似性的感知能力。

图2

图2：热图显示了示例中物体在不同位置的相似度分布。

详细讲解：

热图（Heatmap）：热图是一种数据可视化手段，它通过颜色的变化来展示数据的大小或密度。在这个上下文中，热图用于表示相似度的分布情况。
相似度分布：这里指的是在示例图像中，不同区域（中心、边缘、背景）与其它图像中物体的相似度。相似度可以被理解为特征空间中的距离度量，相似度越高，表示特征越接近。
中心（Center）：在示例物体的中心区域，相似度通常最高。这意味着中心区域的特征与其它图像中相同物体的特征最为接近。
边缘（Edge）：边缘区域的相似度可能略低于中心区域，但仍然相对较高。边缘的相似度分布可能会因物体的形状和方向的不同而有所变化。
背景（Background）：背景区域的相似度通常较低，因为背景特征与物体的特征差异较大。在某些情况下，如果背景中包含与物体相似的纹理或模式，相似度可能会略有提高。
图2：这张图通过颜色的深浅来展示相似度的高低，颜色越深表示相似度越高。通过这种视觉化的方式，可以直观地理解不同区域的相似度分布特征。
应用场景：这种相似度分布的理解对于图像处理和计算机视觉中的许多任务都是重要的，例如物体识别、分割和计数等。通过分析相似度分布，可以更准确地定位物体的位置和形状。

总结来说，图2通过热图的形式展示了在示例图像中，物体的不同区域（中心、边缘、背景）与其它图像中物体的相似度分布情况，这种分布特征可以为进一步的图像分析和处理提供有价值的信息。

2 Related Work

2.1 Class-Specific Object Counting

特定类别的对象计数专注于计数特定类别的对象，例如人群[Stewart等人，2016；Liang等人，2023；Lin和Chan，2023；Du等人，2023]、动物[Arteta等人，2016]或汽车[Hsieh等人，2017]。在相关方法中，类别信息可以在无需额外分类步骤的情况下纳入到特征提取过程中。现有方法可以广泛地分为基于检测和基于回归的方法。

基于检测的方法通过检测图像中对象的位置来进行计数。然而，这些方法中的计数准确性在很大程度上依赖于检测过程的性能，这会引入错误。这限制了在密集堆积对象场景中计数任务的有效性。为了解决这个问题，已经提出了基于回归的方法来生成密度图，其中密度值的总和代表了预测的对象数量。

密集堆积对象场景的挑战：在对象非常密集地堆积在一起的场景中，基于检测的方法可能会遇到困难，因为对象之间的界限可能变得模糊，难以区分单独的实例。
基于回归的方法：作为对基于检测方法局限性的补充，基于回归的方法被提出。这些方法不直接检测对象的位置，而是尝试预测整个图像或图像区域中对象的密度。
密度图：基于回归的方法生成的密度图是一个2D的映射，其中每个像素或每个小区域的值表示该位置对象存在的密度。这种方法可以更平滑地处理对象密集的情况。
密度值的总和：密度图中所有值的总和给出了图像中对象的估计总数。这种方法可能更适合处理对象之间边界不明显的情况，因为它不是依赖于单独实例的检测，而是依赖于整体密度的估计。

经典的基于检测的方法，例如，[Stewart等人，2016]提出了一个模型，该模型将图像解码成一组人的检测结果，直接从输入图像生成不同的检测假设。另一方面，近期在基于回归的方法中的研究，如[Cheng等人，2022]，使用局部连接的多变量高斯核作为卷积滤波器的替代品。而且，最近的工作[Liang等人，2023]提出了从视觉-语言预训练模型（CLIP）向无监督人群计数任务的知识迁移，消除了对密度图注释的需求。

经典基于检测的方法：这些方法通常使用对象检测技术来识别和定位图像中的对象。例如，[Stewart等人，2016]的工作可能涉及到使用特定的检测算法来识别图像中的每个人，并为每个人生成一个检测假设。
图像解码：在这种模型中，图像被解码以产生一组检测结果。这通常意味着模型会分析图像内容，并尝试识别出图像中所有独立的对象实例。
基于回归的方法中的最近研究：与经典的基于检测的方法不同，基于回归的方法通常不关注于识别单独的对象实例，而是尝试预测整个图像或图像区域中对象的密度。[Cheng等人，2022]的研究可能采用了一种新颖的回归方法，使用局部连接的多变量高斯核来替代传统的卷积滤波器，这可能是为了更好地捕捉图像中的局部特征和对象分布。
多变量高斯核：这是一种统计工具，用于模拟和预测多维空间中的概率分布。在计算机视觉中，这可以用于模拟图像中对象的空间分布。
知识迁移：[Liang等人，2023]的工作提出了一种创新的方法，即利用视觉-语言预训练模型（如CLIP）的知识来增强人群计数任务。这种方法可能涉及到将从大量图像和文本数据中学习到的特征和模式迁移到人群计数任务中。
无监督人群计数任务：这是一种不需要手动标注的训练方法。通过使用预训练模型，可以减少对大量标注数据的依赖，从而降低数据准备的难度和成本。
消除密度图注释的需求：传统的基于回归的方法可能需要手动标注的密度图来训练模型。然而，通过知识迁移，可以减少或完全消除这种需求，使得模型能够在没有或只有很少标注数据的情况下进行训练。

2.2 Few-shot Object Counting

近年来，少样本对象计数（FSC）受到了显著关注，并见证了兴趣的激增。FSC的目标是利用仅有的几个示例作为参考，在图像中准确计数对象。在测试阶段适应未见类别的能力是FSC的一个关键优势。

针对FSC（少样本对象计数），已经提出了几种值得注意的方法。GMN [Lu等人，2019] 将支持特征和查询特征连接在一起，并基于这种连接回归预测密度图。相比之下，FamNet [Ranjan等人，2021] 使用卷积核形式的示例对查询图像进行卷积，生成多个相似度图，这些图提供了查询和示例之间比较结果的洞察。然后从这些相似度图中回归预测密度图。另一种方法，BMNet [Shi等人，2022]，采用全局池化将示例转换为原型，并用可学习的双线性相似度度量替换了固定的内积操作，以比较示例原型与查询图像特征。CounTR [Liu等人，2022] 引入了基于变换器的架构来提取图像特征，并利用交叉注意力模块进行有效的特征匹配。最近，LOCA [Ðukić等人，2023] 被提出，它分别考虑了示例的形状和外观属性，并通过考虑图像全局特征的新对象原型提取（OPE）模块，将这些属性迭代适应到对象原型中。

详细讲解：

GMN (Generic Matching Network)：这是一种少样本学习框架，通过连接支持特征（来自示例）和查询特征，然后基于这种特征的连接来预测密度图。
FamNet：这种方法使用示例作为卷积核对查询图像进行卷积操作，生成多个相似度图，这些图反映了查询图像与示例之间的相似性，基于这些相似度图来预测密度图。
BMNet：BMNet采用全局池化处理将示例转换为原型，然后用一种可学习的双线性相似度度量来代替固定的内积操作，以便比较查询图像特征与示例原型之间的相似性。
CounTR：CounTR引入了基于变换器（Transformer）的架构来提取图像特征，并使用交叉注意力模块来有效地进行特征匹配，这有助于提高少样本计数的性能。
LOCA (Low-shot Object Counting network with iterative prototype Adaptation)：LOCA是一个新提出的方法，它通过一个新颖的对象原型提取（OPE）模块来分别处理示例的形状和外观属性，并且迭代地将这些属性适应到对象原型中，同时考虑了图像全局特征。
可学习的双线性相似度度量：BMNet中使用的技术，允许模型学习如何更好地比较特征，而不是使用固定的内积操作。
交叉注意力模块：CounTR中使用的技术，有助于模型在特征匹配过程中更好地聚焦于图像的相关部分。
图像全局特征：LOCA考虑的特征，可能包括图像的整体布局、颜色分布、纹理等，这有助于模型更好地理解和预测对象的分布。

这些方法代表了少样本对象计数领域的最新进展，它们展示了如何通过不同的技术手段来提高模型在少量样本情况下的计数能力。随着研究的深入，这些方法可能会继续发展和完善，以适应更广泛的应用场景。

问题定义：首先明确你想要解决的具体问题。是否是提高计数准确性、改善小目标检测、增强类别泛化能力，还是在特定场景下的应用等。
数据收集：收集并标注训练数据，包括图像以及图像中对象的标注框。确保数据的多样性以提高模型泛化能力。
预训练模型选择：选择适合你任务的预训练模型作为backbone，例如ResNet、EfficientNet等，它们可以在特征提取阶段提供良好的初始化。
特征提取：设计或选择特征提取网络来提取图像特征。可以考虑使用卷积神经网络(CNN)来捕捉图像的局部特征。
示例框融合：设计机制将示例框的特征与图像特征结合。例如，使用RoI（Region of Interest）池化层来提取框内的特征。
相似度计算：开发相似度计算模块，比如使用FamNet中的卷积核或BMNet中的双线性相似度度量来比较查询图像特征和示例原型。
注意力机制：考虑引入注意力机制，如CounTR中的交叉注意力模块，以增强模型对图像中关键区域的聚焦能力。
原型提取与适应：参考LOCA的OPE模块，设计原型提取和适应策略，以迭代地改进对象原型，更好地匹配查询图像特征。
密度图预测：基于上述步骤生成的特征和相似度信息，设计回归网络来预测密度图。
损失函数设计：定义损失函数来训练网络，例如均方误差(MSE)或平均绝对误差(MAE)，可能还需要辅助损失来优化特定部分。
训练与验证：使用收集的数据训练网络，并通过交叉验证来调整超参数和评估模型性能。
评估与迭代：在测试集上评估模型性能，并根据结果进行迭代优化。考虑使用不同的评估指标，如mAP（mean Average Precision）或F1分数。

2.3 Generalized Loss

[Wan等人，2021]提出了一种基于非平衡最优传输的通用损失函数，用于人群计数和定位的密度图学习。并且[Wan等人，2021]证明了L2损失和贝叶斯损失[Ma等人，2019]都是通用损失的特殊情况。[Lin等人，2022]提出的方法也采用了这种损失函数，并引入了一种尺度敏感的通用损失，它对不同尺度的对象类别应用不同的损失计算方法。

3 Methodology

3.1 Problem Setting

3.2 Overall Architecture

详细讲解：

特征提取：使用预训练的ResNet-50网络来提取输入图像的特征。这些特征捕获了图像的重要视觉信息，为后续分析提供基础。
特征金字塔：构建一个特征金字塔，其中包含多个级别的特征，这些特征在空间尺寸上是一致的，使得它们可以被联合处理。
特征交叉增强（FCE）：在特征提取之后，可能采用一种机制来加强不同特征层之间的交互，以增强特征的表达力。
相似度金字塔计算：在特征金字塔的每个级别上，计算查询特征和示例特征之间的相似度，可能使用RoIAlign来精确对齐特征。
相似度学习：利用计算得到的相似度信息，模型学习如何更好地理解和匹配查询特征与示例特征之间的关系。
回归解码：最终，使用回归网络来解码特征，以预测对象的数量或其他连续值。
权重冻结：在特征提取阶段，不对预训练的ResNet-50网络的权重进行微调，即权重保持在预训练状态。
RoIAlign方法：这是一种特征提取技术，用于从特征图中提取感兴趣区域的特征，保持了特征的空间对齐性。
空间尺寸和通道维度：在特征金字塔的每一层，特征的空间尺寸和通道维度都被明确定义，以确保不同层之间的兼容性。

详细讲解：

特征交叉增强（FCE）模块：这是一个处理过程，旨在通过某种方式增强特征，提高特征的表达能力或区分度。
示例特征：示例特征是从训练数据中提取的，用于代表特定类别或对象的特征。在少样本学习中，这些示例特征对于模型学习新类别至关重要。
查询特征：查询特征是从需要分析的图像（查询图像）中提取的特征，可能用于寻找与示例特征相似的对象。
增强后的特征：通过FCE模块处理后得到的特征，记为 EE 和 EsEs，它们在维度上与原始特征 F9F9 和 FsFs 保持一致。
特征金字塔组合：这可能指的是在特征金字塔中不同层级的特征组合，每个示例 kk 对应一组特定的金字塔层级组合 E(l,k)E(l,k)。
余弦乘法：这是一种操作，通过计算特征向量对的余弦相似度，并将这个相似度值乘以特征向量本身，来增强特征向量。
相似度矩阵：通过余弦乘法生成的矩阵，表示不同特征对之间的相似度。这个矩阵可以用于后续的相似度学习或其他处理步骤。
K个示例的划分：这可能意味着将K个示例分组或分配到不同的处理路径或网络分支中，以便并行处理或利用它们的特定属性。

总结来说，这段描述涉及到一个特征处理流程，其中包括使用特征交叉增强模块来增强示例特征和查询特征，然后通过余弦乘法生成相似度矩阵，这可能是为了后续的相似度学习或其他分析任务。这个过程强调了特征增强和相似度度量在机器学习模型中的重要性。

公式1

公式2

3.3 Feature Cross Enhancement

同一类别的查询特征中的对象特征分布往往是不均匀的。直接使用原始特征进行匹配和计数可能导致每个对象的密度值变化。为了解决这个问题，我们提出了一个特征交叉增强（Feature Cross Enhancement, FCE）模块，旨在将查询中的对象特征更接近示例特征，同时也促进示例特征更接近所有对象特征的中心位置。通过增强特定类别的对象特征的接近度，模型能够生成更准确的密度值。

详细讲解：

对象特征分布的不均匀性：在查询图像中，同一类别的对象可能在不同的区域以不同的密度出现，导致特征分布不均。
直接匹配和计数的问题：如果直接使用这种不均匀分布的原始特征进行对象匹配和计数，可能会得到每个对象不一致的密度估计，影响计数的准确性。
特征交叉增强（FCE）模块：为了解决上述问题，提出的FCE模块旨在改善特征的分布，使其更加均匀，更符合示例特征的分布。
增强对象特征与示例特征的接近度：FCE模块通过某种机制（可能是特征转换或加权等）增强查询特征中的对象特征，使其在特征空间中更接近于示例特征。
促进示例特征向对象特征中心位置移动：FCE模块不仅增强查询特征，也试图调整示例特征，使其在特征空间中更接近所有对象特征的中心位置，这有助于提高匹配的准确性。
生成更准确的密度值：通过FCE模块的增强，模型能够更准确地估计对象的密度，从而生成更准确的计数结果。
模型的学习能力：FCE模块的引入提高了模型对于不同分布特征的学习能力，使其能够更好地泛化到新的查询图像上。

总结来说，FCE模块是一个创新的特征处理方法，通过增强查询特征和示例特征之间的相似性，改善了特征的分布，从而提高了对象计数任务的准确性和鲁棒性。这种模块可能涉及到复杂的数学操作和网络结构设计，以实现特征空间中更优的匹配和计数。

公式3

公式4

3.4 Similarity Learning Module

4D卷积。一些现有的工作[Rocco等人，2018；Yang和Ramanan，2019；Min等人，2021]已经提出了4D卷积的各种实现方式。在我们的框架中，我们采用了[Min等人，2021]中的中心支点4D卷积，它稀疏化了大量不重要的权重和计算。这种方法仅关注与卷积中心相关的信息，减少了计算开销，同时保持了有效性。通过4D卷积，根据卷积核权重，在4D空间的每个4D位置上融合张量，整合附近4D空间的信息，并将该位置的向量转换为相应的输出维度。

4D卷积：这是一种卷积操作，它在传统的3D空间（宽度、高度、深度）上增加了一个额外的维度，可能是时间、通道或其他某种形式的特征维度。
现有工作：文中提到了三篇文献，它们分别在2018年、2019年和2021年提出了不同的4D卷积实现方法。
中心支点4D卷积：这是一种特定的4D卷积方法，它通过只关注卷积核中心附近的信息来减少不必要的计算量。这种方法由Min等人在2021年提出。
稀疏化：中心支点4D卷积通过减少卷积操作中的权重数量来稀疏化模型，这意味着只有与卷积中心直接相关的权重会被保留和计算。
计算开销：通过减少卷积核中不重要的权重，中心支点4D卷积降低了模型的计算成本，这对于处理大规模数据集或实时应用尤其重要。
有效性：尽管稀疏化了部分权重，但该方法仍然保持了模型的有效性，即它能够捕捉到足够的特征信息以完成其任务。
张量融合：在4D卷积中，不同的张量（多维数组）根据卷积核的权重在4D空间的每个位置上进行融合。
4D空间的信息整合：4D卷积能够整合一个4D区域内的信息，这可能包括时间序列数据、多通道数据或其他类型的高维数据。
输出维度：通过4D卷积，输入数据在每个4D位置上被转换成目标维度的输出，这通常是为了生成某种形式的特征表示或预测结果。

总结来说，4D卷积是一种高级的卷积技术，它通过在更高维度上进行信息整合来增强模型的表征能力。中心支点4D卷积特别适用于需要处理高维数据且对计算资源有限制的应用场景。

公式5

公式6

dearRongerr

关注

22
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
⭕️【读论文】Learning Spatial Similarity Distribution for Few-shot Object Counting

少样本目标计数的目标是计算查询图像中与给定示例图像相同类别的对象数量。现有方法在2D空间域内计算查询图像与示例之间的相似度，并执行回归以获得计数数量。然而，这些方法忽略了有关示例图像上相似度空间分布的丰富信息，这对匹配精度产生了显著影响。为了解决这个问题，我们提出了一种学习空间相似度分布（SSD）的网络，用于少样本目标计数，它保留了示例特征的空间结构，并计算查询特征与示例特征之间的4D相似度金字塔点对点相似度，捕获4D相似度空间中每个点的完整分布信息。
复制链接

扫一扫

专栏目录