《Building Vision Transformers with Hierarchy Aware Feature Aggregation》ICCV2023

夏日的盒盒

于 2024-10-10 21:03:46 发布

阅读量545

点赞数 10

文章标签： transformer 计算机视觉

本文链接：https://blog.csdn.net/qq_46981910/article/details/142831612

版权

摘要

这篇论文介绍了一种名为层次感知特征聚合（Hierarchy Aware Feature Aggregation，简称HAFA）的框架，旨在解决视觉Transformer在生成层次化特征图时存在的问题。现有的Transformer模型在这一过程中仍然采用了卷积神经网络（ConvNets）的特征聚合方案，这导致了在特征聚合后图像网格区域的语义信息变得混乱，使得注意力机制难以准确建模全局关系。为了解决这个问题，HAFA框架被提出，它在浅层增强局部特征的提取，并在深层聚合语义相似的patches。这种清晰的语义信息使得注意力机制能够更准确地在语义层面建模全局信息。广泛的实验表明，使用HAFA框架后，在图像分类、目标检测和语义分割任务中相较于基线模型取得了显著的改进。

概述

拟解决的问题：论文旨在解决视觉Transformer在生成层次化特征图时存在的问题，即在特征聚合过程中语义信息的混乱，这影响了注意力机制对全局关系的准确建模。

基于固定网格和提出的层次感知特征聚合(HAFA)的比较。左：图像被概念化为多个固定网格。在浅层，采样中心固定在网格中心，而在深层，语义信息在多个网格中碎片化，导致语义分割不准确。右图：在浅层，HAFA通过学习自适应地改变采样中心，增强局部信息感知。在深层，HAFA聚合语义相似的补丁，以确保语义信息的完整性。与左图中的固定网格相比，HAFA 在语义分割方面表现更好，因为它的层次结构感知方式进行自适应特征聚合。

创新之处：

提出了HAFA框架，它可以作为Transformer的插件，以可忽略的计算成本显著提高性能。
引入了两个特征自适应聚合模块（局部自适应特征聚合（LAA）和语义信息聚合（SIA）），为构建具有不同和动态关系建模的层次化视觉Transformer提供了贡献。
通过实验结果证明了HAFA在各种模型上，特别是在下游密集预测任务中的性能提升，对小目标检测和语义分割有显著改进。

方法

HAFA框架基于金字塔视觉Transformer（PVT）构建，采用不同的特征聚合方案，这些方案基于模型在不同阶段学习到的特征。在模型的浅层，使用LAA模块增强局部信息的感知；在深层，使用SIA模块聚合语义相似的patches。SIA模块利用聚类将特征空间中语义相似的patches分组，然后通过预测器量化每个patch的重要性并进行合并。LAA模块学习局部纹理信息，自适应地改变patch的采样中心，增强局部信息的捕获。

3.1 局部自适应特征聚合（LAA）模块

直接使用固定网格对图像进行分割，并在模型的浅层使用滑动窗口聚合特征会破坏局部信息，尤其是边缘信息。LAA模块旨在增强模型在浅层对局部特征的提取能力，特别是边缘信息。这是通过自适应地改变patch的采样中心来实现的，以增强局部信息的感知。

给定输入特征图 F，初始采样点的坐标是规则网格 $P_{I}\in \mathbb{R}^{2\times \left ( n\times n \right )}$ ，其中 n×n表示采样特征的数量。LAA模块学习相对于规则网格的偏移量 $O_{f}\in \mathbb{R}^{2\times \left ( n\times n \right )}$ ，采样坐标可以表示为：

基于这些坐标，使用双线性插值基于patch的采样坐标形成新的patch，并最终进行聚合。这样，得到的结果显示丰富的局部信息，有助于深层模型更好地建立高质量的语义信息。

3.2 语义信息聚合（SIA）模块

SIA模块旨在解决通过ConvNets范式聚合特征时出现的网格语义混淆问题，这会导致注意力机制无法正确建模全局信息。SIA模块通过聚合语义相似的patches来避免语义混淆。

聚类（Clustering）：目的是将语义相似的patches分组成语义组。使用基于K最近邻（K-nearest neighbors）的密度峰值聚类算法（DPC-KNN）。对于给定的 N 个patches和 k 最近邻数据点，使用欧几里得距离表示数据点之间的距离：

计算局部密度公式如下：

x表示一个数据点，d表示数据点之间的距离，ρi表示点xi的局部密度，KNN(xi)表示xi的k近邻数据点集合，记为xj∈KNN(xi)。

第二个概念是相对距离δi，它指的是数据点 i 与任何其他具有较高局部密度的点之间的最小距离。针对局部密度最大的数据点，假设相对距离默认为最大值。

为每个数据点计算，选择得分最高的数据点作为聚类中心，并将其余数据点分配给最近的特征距离的聚类中心。

合并（Merging）：在聚类之后，每个语义组可能包含不同数量的patches，不同patches的贡献也可能不同。因此，使用预测器量化每个patch的重要性 p，并按以下方式合并：

空间分布保存。SIA 中的聚类算法仅根据特征空间中的语义信息将补丁分类为不同的语义组。因此，同一语义组中的补丁在语义上仅相关，可能不一定来自相邻区域。这可能导致合并后相同语义组的空间分布丢失。为了保留细粒度的空间分布，我们的 SIA 模块仅在 Q 向量上执行聚类，同时采用在 K 和 V 向量上提出的隐式位置编码模块。由于在 K 和 V 中包含原始空间分布信息，聚类 Q 能够通过基于 K 和 V 的注意力计算来保留细粒度的空间分布。为了比较，我们还将在模型分析部分同时聚类 Q、K 和 V 获得的结果。注意力计算如下：

结论

HAFA框架通过在模型的不同阶段采用不同的特征聚合策略，有效地提高了基线模型在多个任务中的性能。实验结果表明，HAFA能够显著提升模型在图像分类、目标检测和语义分割任务中的性能。此外，HAFA在不同尺度的模型上都表现出了性能提升，尤其是在小目标检测和语义分割任务中。论文还讨论了HAFA在其他主流网络架构上的应用，证明了其通用性和良好的泛化能力。