FreqFusion：一种新的频率感知特征融合方法

最新推荐文章于 2025-02-26 13:07:09 发布

程序员笑武

最新推荐文章于 2025-02-26 13:07:09 发布

阅读量2.4k

点赞数 18

文章标签：目标跟踪人工智能计算机视觉 python 深度学习机器学习 1024程序员节

本文链接：https://blog.csdn.net/m0_59164304/article/details/143346064

版权

用于密集图像预测的频率感知特征融合

作者：Linwei Chen, Ying Fu, Lin Gu, Chenggang Yan,Tatsuya Harada, Gao Huang

摘要

密集图像预测任务需要具有强大类别信息和高分辨率精确空间边界细节的特征。为了实现这一点，现代分层模型通常利用特征融合，直接添加来自深层的上采样粗特征和来自较低层的高分辨率特征。在本文中，我们观察到对象内融合特征值的快速变化，由于高频特征受干扰导致类别内不一致。此外，融合特征中的模糊边界缺乏准确的高频，导致边界位移。基于这些观察，我们提出了频率感知特征融合（FreqFusion），集成了自适应低通滤波器（ALPF）生成器、偏移生成器和自适应高通滤波器（AHPF）生成器。ALPF 生成器预测空间变化的低通滤波器以衰减对象内的高频分量，从而减少上采样期间的类内不一致性。偏移生成器通过重采样将不一致的特征替换为更一致的特征，从而细化较大的不一致特征和较细的边界，而 AHPF 生成器则增强了下采样过程中丢失的高频详细边界信息。全面的可视化和定量分析表明，FreqFusion 有效地提高了特征一致性并锐化了对象边界。在各种密集预测任务中进行的大量实验证实了其有效性。

关键字

特征融合、特征上采样、密集预测、语义分割、目标检测、实例分割、全景分割

引言

DENSE 图像预测涵盖各种计算机视觉任务，这些任务涉及用预定义类别标记图像中的每个像素。这些任务包括目标检测 [1]、语义分割 [2]、[3]、实例分割 [4] 和全景分割 [5]。它们对于场景理解至关重要，并且对于现实世界的应用（例如自动驾驶 [6]、[7]、医学成像 [8]、[9] 和机器人技术 [10]）也很重要。这些任务需要用于对象分类的稳健类别信息和用于对象定位的详细空间边界信息。

现代模型 [12]–[14] 通常使用分层设计，并采用多次下采样操作来逐步减小特征大小。此过程通常会导致详细边界信息的丢失，而这些信息对于精确的密集像素预测至关重要。为了解决这个问题，特征融合 [15] 被广泛使用 [2]、[9]、[16]–[18]，将来自深层的高级粗特征与低级但高分辨率的特征相结合。从经验上讲，高级特征往往携带更多的类别信息，而低级特征提供更多的边界细节 [15]、[19]、[20]。在标准特征融合过程中，粗特征只是通过最近邻或双线性插值进行上采样，然后添加或与高分辨率特征连接。

尽管如此，标准特征融合仍存在两个对密集预测有重大影响的问题，即类别内不一致和边界位移，如图 1 所示。类内不一致的一个主要原因是同一物体的各个部分之间存在很大差异 [21]。例如，汽车的车轮可能表现出更多的纹理和黑暗，而车窗则显得光滑有光泽。但标准特征融合 [16] 无法解决这些不一致的特征。相反，通常采用的简单双线性上采样可能会通过将单个不一致的特征上采样到多个像素而使问题恶化，从而加剧类别内不一致。此外，先前的研究 [22]、[23] 观察到简单的插值通常会过度平滑特征，导致边界位移。

为了量化这些问题，我们采用了特征相似性分析，如图 2 所示。类别内不一致性可以通过类别内相似性来评估，该相似性衡量特征向量与类别平均特征（即类别中心）之间的相似性 [24]。同样，我们可以评估类间相似性，从而计算相似度边界。边界位移可以用低类别内相似性和边界区域的相似度边界来表征。如图 1 所示，公交车和卡车内部的不一致特征表现出较低的类别内相似性，边界也表现出较低的且不断降低的类别内相似性。鉴于分类分数是通过计算学习到的类别感知固定权重和特征之间的相似性来确定的 [25]，具有低类别内相似性和低相似度边界的特征会导致相应类别的分类分数较低，并导致分类错误。

在本文中，我们观察到对象内部特征值存在快速变化或变异，即特征中高频扰动导致类别内相似度低[11]，从而导致类别内不一致。此外，模糊的边界缺乏准确的高频，导致边界位移，如图1所示。

基于这些观察，我们提出了频率感知特征融合 (FreqFusion)，这是一种在特征融合过程中增强特征的方法。FreqFusion 由三个关键组件组成：自适应低通滤波器 (ALPF) 生成器、偏移生成器和自适应高通滤波器 (AHPF) 生成器。ALPF 生成器预测空间变化的低通滤波器，旨在通过衰减对象内的高频分量并在上采样期间平滑特征来减少类内不一致性。偏移生成器预测偏移以重新采样特征像素，并用表现出高类别相似性的附近特征替换具有低类别相似性的特征，从而细化内部和边界。AHPF 生成器从下采样后无法恢复的低级特征中提取高频细节，从而更准确地描绘边界。这三个组件协同工作以恢复具有一致类别信息和清晰边界的融合特征。

具体来说，ALPF 生成器应用低通滤波器来平滑和上采样粗略的高级特征，从而减少像素值之间的差异并最小化特征不一致性。为了防止边界模糊，受 [26] 的启发，它为每个上采样的特征坐标预测空间变化的低通滤波器，而不是在传统插值 [27] 中使用固定核。通过特征相似性分析，我们发现具有空间变化低通滤波器的平滑特征可以大大降低整体特征不一致性。它增加了类别内相似性并导致更高的相似性裕度，从而增强了特征的一致性和判别性。因此，它有利于密集预测任务。

虽然使用平滑特征和 ALPF 生成器可以提高整体类别内相似度，但它在纠正大面积不一致特征或细小边界方面可能并不出色。扩大低通滤波器的尺寸有利于解决大面积不一致特征，但对薄区域和边界区域则不利。相反，减小低通滤波器的尺寸有利于薄区域和边界区域，但会阻碍对具有不一致特征的大面积区域的纠正。为了解决这一矛盾，我们引入了偏移生成器。它的动机是观察到低类别内相似度特征通常具有高类别内相似度的邻居，如图 1 所示。偏移生成器首先计算局部相似度，然后预测高相似度方向上的偏移量以进行重采样。这种方法允许对具有高类别内相似度的特征进行重采样，以替换具有低类别内相似度的特征。因此，偏移生成器可以纠正大面积和薄边界区域中不一致的特征。

虽然 ALPF 生成器和偏移生成器可以有效恢复具有高类内一致性和精细边界的上采样高级特征，但在下采样过程中丢失的低级特征中的详细边界信息无法在高级特征中完全恢复。根据奈奎斯特-香农采样定理 [28]、[29]，高于奈奎斯特频率（相当于采样率的一半）的频率在下采样过程中会永久丢失。例如，在 2× 下采样操作期间，高于 14 的频率会出现混叠（例如，步幅为 2 的 1×1 卷积层的采样率为 12）。为了解决这一限制，我们引入了 AHPF 生成器，它通过预测空间变化的高通滤波器并将其应用于低级特征来提取详细的边界信息，从而增强奈奎斯特频率以上的高频功率并使边界清晰。频率分析显示高频功率有所改善，从而产生更精细的可视化密集预测结果。

定性结果展示了 FreqFusion 在恢复具有判别性类别信息和清晰边界的高分辨率特征方面的有效性。定量分析表明，类别内相似性和相似性边际有显著改善。这反过来又导致各种任务的性能显着增强，包括语义分割、对象检测、实例分割和全景分割，优于以前最先进的方法。具体而言，1）对于语义分割，FreqFusion 分别将 SegFormerB1 [30] 和 SegNeXt-T [31] 增强了 2.8 和 2.0 mIoU。它在具有挑战性的 ADE20K 数据集 [33] 上为 Heavy Mask2FormerSwin-B/L [32] 实现了 +1.4/0.7 mIoU 的增益。 2) 对于物体检测，FreqFusion 在 MS COCO [34] 数据集上使用 Faster RCNN-R50 [1] 将 AP 提升了 1.8；3) 对于实例分割，FreqFusion 在 MS COCO [1] 数据集上将 Mask R-CNN-R50 [4] 的性能提升了 1.7 个盒子 AP 和 1.3 个掩模 AP；4) 对于全景分割，FreqFusion 的表现远胜于其他上采样器，在 MS COCO [1] 数据集上使用 Panoptic FPN-R50 [18] 将 PQ 提升了 1.9。

我们的主要贡献可以概括如下：

我们发现广泛使用的标准特征融合技术中存在两个重要问题：类别内不一致和边界位移。我们还引入了特征相似性分析来定量测量这些问题，这不仅有助于开发新的特征融合方法，而且有可能激发相关领域及其他领域的进步。
我们提出了FreqFusion，它通过使用空间变量低通滤波器自适应地平滑高级特征、重新采样附近的类别一致特征以替换高级特征中的不一致特征以及增强低级特征的高频来解决类别不一致和边界位移问题。
定性和定量结果表明，FreqFusion增加了类别内相似性和相似性边界，从而在各种任务（包括语义分割、对象检测、实例分割和全景分割）中取得了一致且显着的改进。

3. 特征相似性分析指标

我们首先介绍特征相似性分析的指标。这些指标旨在量化特征融合过程中出现的类别内不一致和边界位移问题。这为开发和分析有效的特征融合技术奠定了坚实的基础。

特征相似性被广泛用于评估提取特征的质量[24]，[90]-[92]。通常，同一类别内的特征应表现出较高的相似性，从而确保较高的类别内相似性。另一方面，来自不同类别的特征应表现出较低的相似性，从而导致较低的类别间相似性。类别内和类别间相似性之间的较大差距（称为相似性边际）对于防止错误分类至关重要。

为了便于定量评估类别内不一致性和边界位移，以及评估融合特征的质量，我们引入了涵盖类别内相似性、相似性边际和相似性准确度的指标。这些指标为评估提取的特征图的判别能力提供了一个全面的框架。

类别内和类别间相似度。类别内相似度的计算方法是，首先通过对每个类别内的特征取平均值来得出类别中心。随后，我们计算类别中心与属于同一类别的特征向量之间的余弦相似度。这表示为：

这里我们考虑具有两个类别的二分类分割，表示特征向量的真实类别，表示属于类别的区域，是余弦相似度。类似地，类别间相似度使用相同方法计算，不同之处在于类别中心和特征向量来自不同的类别。

这里，表示属于类别的区域。

相似度边界。因此，相似度边界是通过从类别内相似度中减去类别间相似度来确定的

相似度准确率。为了全面评估类别内不一致和边界位移导致的误分类率风险，我们根据每个特征最相似的类别中心将其分配到一个类别。这样，我们就可以计算准确率，即相似度准确率。它衡量的是所有类别中类别间相似度大于类别内相似度的特征比例。

类别内相似度、相似度边际和相似度准确度指标共同评估特征中存在的类别信息，从而提供判别能力和不同类别之间的分离。

4 频率感知特征融合

在本节中，我们介绍如图 3 所示的 FreqFusion。它由三个基本组件组成：自适应低通滤波器 (ALPF) 发生器、偏移发生器和自适应高通滤波器 (AHPF) 发生器，如图 4 所示。

FreqFusion 分为两个主要阶段，即初始融合和最终融合。在最终融合步骤之前，需要压缩和融合低级和高级特征，作为三个生成器的输入，以确保最终融合阶段的效率。我们首先介绍如何增强初始融合，阐明其在 FreqFusion 框架中的重要性。随后，我们将详细介绍三个生成器各自的功能，从而全面了解它们在融合过程中的作用。

4.1 FreqFusion 概述

我们首先介绍广泛使用的标准特征融合方法，然后概述 FreqFusion 的设计。

标准特征融合。通常，特征融合的常见方式可以表述为[15]，[16]，[93]：

其中分别表示由主干生成的第个特征和第级的融合特征。我们假设它们具有相同数量的通道；如果不是，一个简单的投影函数，如卷积，可以确保这一点 [16]，为简洁起见，我们省略了这一点。术语表示上采样，例如 2× 最近邻或双线性插值 [16]，[17]。

尽管这种直接的特征融合方法被广泛使用，但它表现出两个对密集预测产生不利影响的问题，即类别内不一致和边界位移。标准融合无法纠正这些不一致的特征，而其中的简单插值甚至可能通过将单个不一致的特征上调到多个不一致的像素而使问题恶化。此外，正如在各种先前的工作[2]、[22]、[65]中观察到的那样，简单插值的输出往往倾向于过度平滑，从而导致边界位移。此外，低级特征中的详细边界信息没有得到充分利用。

FreqFusion 的设计。如图 3 所示，所提出的 FreqFusion 可以正式写成：

其中表示 ALPF 生成器预测的低通滤波器，表示偏移生成器针对处的特征坐标预测的偏移值，FHP 表示 AHPF 生成器预测的高通滤波器。它们通过使用空间变量低通滤波器自适应地平滑高级特征、重新采样附近的类别一致特征以替换高级特征中的不一致特征以及增强低级特征的高频边界细节来解决类别不一致和边界位移问题。

为了高效地生成低通滤波器、偏移值和高通滤波器 FHP，首先需要压缩和，然后将它们融合以输入到三个生成器中，这个过程我们称之为初始融合。一个简单的初始融合 [19], [23], [68] 可以正式表示为：

其中表示融合压缩特征，为通道减少率，用于减少三个生成器的后续计算成本。卷积层用于通道压缩。接下来，我们继续解释如何增强初始融合，然后描述三个生成器的细节。

4.2 增强初始融合

这三个生成器依赖于初始融合的压缩特征来预测自适应滤波器和重采样偏移。然而，公式 (6) 中给出的简单初始融合表现出两个次优方面，这可能会对后续的三个生成器产生不利影响。首先，它采用简单的插值对压缩特征进行上采样，导致边界模糊 [22]、[71]。其次，频率分析表明 ALPF 生成器严重依赖于融合压缩特征中的高频信息。然而，传统的卷积层只能捕获高频的固定模式。因此，我们建议进一步增强初始融合过程。

初始融合的上采样。一些开创性的工作 [19]、[22]、[23] 强调了上采样的重要性，强调简单的插值技术（例如最近邻或双线性插值）会引入平滑和不准确的边界。尽管意识到这一点，但为了生成初始上采样的中间特征，他们 [19]、[23] 仍然采用简单的插值，不可避免地导致中间特征中出现类似的问题。因此，这会导致后续阶段的上采样结果不理想。

为了解决这个问题，如图 3 所示，我们利用 ALPF 生成器将压缩的低级特征作为输入，并生成初始低通滤波器以对压缩的高级特征进行上采样。利用低级中存在的高分辨率结构有利于对粗高级特征进行上采样 [23]。ALPF 生成器的细节在第 4.3 节中描述。通过采用这种方法，我们避免使用简单的插值，从而获得更精细的初始融合结果并有利于后续生成器。

初始融合的高频增强。如图 5 所示，频率分析突出了 ALPF 生成器对融合压缩特征中的高频信息的明显依赖。值得注意的是，这种依赖源于卷积层的固有性质，卷积层受限于捕获高频的固定模式。

基于这一见解，我们建议采用 AHPF 生成器作为战略增强。第 4.5 节描述了 AHPF 生成器的细节。AHPF 生成器作为我们框架中的一个动态组件，旨在从特征图中提取高频分量，从而克服标准卷积层带来的限制。与具有固定学习权重的卷积不同，AHPF 生成器使用的空间变量高通滤波器展示了捕获高频模式的自适应能力。

因此，AHPF 生成器通过精细调整的高频细节丰富了特征表示，从而促进了更有效的下游处理。如图 6 所示，增强的初始融合有利于后续生成器更好地适应特征内容，从而产生更精细的最终融合结果。表 1 中的定量特征相似性分析也证明了 ALPF 和 AHPF 生成器在提高特征一致性和边界清晰度方面的优势。

4.3 自适应低通滤波器发生器

自适应低通滤波器 (ALPF) 生成器旨在预测动态低通滤波器，旨在有效地平滑高级特征以减轻特征不一致 [11]，随后对高级特征进行上采样。为了实现高质量的自适应低通滤波器，充分利用高级和低级特征的优势至关重要 [23]。因此，ALPF 生成器将最初融合的作为输入并预测空间变量低通滤波器。它包括一个卷积层，后面跟着一个 softmax 层，表示为：

其中表示空间变化的滤波器权重，其中表示低通滤波器的核大小。重塑后，包含每个位置的滤波器。这里，表示的大小。经过内核级 softmax 以将滤波器约束为全部为正且总和为 1 后，结果是中的平滑低通滤波器 [26]。

接下来，我们使用子像素上采样技术 [62] 对进行上采样。具体来说，我们以像素反洗牌的方式重塑 [62]，将高度和宽度减少一半，并将通道扩大 4 倍。然后，我们将通道分成 4 组，每组都有一个空间变化的低通滤波器，表示为，其中表示组。因此，我们获得 4 组低通滤波特征，表示为，然后将其重新排列以形成 2× 上采样特征，如下所示：

如图 6 所示，ALPF 生成器根据特征内容自适应地预测空间变化的低通滤波器，以平滑和增强特征一致性。为了提供更深入的见解，图 7 中展示了可视化结果。图 7(a) 中所示的发现表明，标准特征融合中常用的双线性上采样特征表现出明显的类别内不一致性和边界位移。例如，汽车内部的类别内相似度较低，并且边界显得模糊，表明位移严重。

相比之下，图 7(b) 展示了改进的特征，其特点是内部一致性增强，这可以归因于 ALPF 生成器的引入。该组件有效地缓解了类别内不一致性，从而产生了更具凝聚力的特征。此外，边界清晰度也有明显改善。

如表 1 所示，定量分析证实了这些观察结果。标准特征融合技术表现出相对较低的类别内相似度、相似度边际和相似度准确度，从而增加了错误分类的风险。然而，在 FreqFusion 框架内加入 ALPF 生成器可带来显着的改进。具体而言，总体类别内相似度（0.727→0.799）、相似度边际（0.245→0.297）和相似度准确度（0.918→0.941）均有显着提高。总之，ALPF 生成器在增强特征一致性方面起着关键作用，从而增强了 FreqFusion 方法的有效性。

4.4 偏移生成器

虽然 ALPF 生成器可以平滑特征以增强整体类别内相似性，但它可能无法纠正大面积的不一致特征或细化薄弱和边界区域。增加低通滤波器的尺寸有利于解决大面积的不一致区域，但会对薄弱和边界区域产生不利影响。相反，减小滤波器尺寸有助于保留薄弱和边界区域，但可能会妨碍纠正具有不一致特征的大面积区域。

为了解决这一难题，我们提出了偏移生成器。我们观察到，类别内相似度较低的相邻特征通常表现出类别内相似度较高的特征。偏移生成器通过计算局部余弦相似度来开始该过程：

其中包含每个像素与其 8 个邻居像素之间的余弦相似度，这鼓励偏移生成器向具有高类别内相似度的特征进行采样，从而减少边界或类别内不一致区域的模糊性，如图 8 和图 9 所示。

具体来说，偏移生成器以和作为输入，并预测偏移量。它由两个 3 × 3 卷积层组成，用于预测偏移方向和偏移尺度，表示为：

其中表示偏移的方向，旨在控制偏移的大小，是高级特征每个像素的最终预测偏移。表示偏移组的数量；我们策略性地将特征划分为不同的组，分配唯一的空间偏移以实现更细粒度的重采样。这种方法允许对具有高类别内相似度的特征进行重采样，以替换具有低类别内相似度的特征。通过这种方式，偏移生成器可以解决大面积不一致的特征并细化边界。

如图 9 所示，在公交车和汽车的内边界，我们的偏移生成器策略性地将偏移引导至特征表现出更高一致性和清晰度的内部位置。相反，在外边界，我们观察到偏移被策略性地引导至相反方向，从而以增强的清晰度丰富了边界区域。偏移方向的这种有意分歧有助于突出对象边界。因此，如图 7© 所示，偏移生成器有助于实现更一致的特征和更准确的边界描绘。表 1 中的定量分析表明，它增强了类别内相似性 (0.760→0.799)，并提高了整体 (0.925→0.941) 和边界 (0.720→0.728) 的相似性准确性。这表明偏移生成器在解决类别内不一致和边界位移问题方面具有优势。

4.5 自适应高通滤波器生成器

虽然 ALPF 生成器和偏移生成器能够有效恢复具有高类内一致性和精细边界的上采样高级特征，但是在下采样过程中丢失的低级特征中的详细边界信息无法在高级特征中完全恢复。

根据奈奎斯特-香农采样定理 [28]、[29]，高于奈奎斯特频率（相当于采样率的一半）的频率在下采样过程中会永久丢失。例如，当高级特征与要融合的低级特征相比下采样 2 倍时（例如，使用步幅为 2 的 1×1 卷积层进行下采样，导致采样率为 1/2），高于 1/4 的频率在此过程中会出现混叠。

具体来说，我们使用离散傅里叶变换（DFT）将特征图变换到频域，记为，表示为：

其中表示来自 DFT 的复数输出数组。和表示其高度和宽度。、表示特征图的坐标。高度和宽度维度中的归一化频率由和给出。因此，大于Nyquist频率 \mathcal{H}^+ = \{(u, v) | |k| > 1/4} 或 |l| > 1/4} 的高频集被混叠，并在下采样的高级特征中永久丢失。

为了解决这一限制，我们采用 AHPF 生成器来增强下采样过程中丢失的详细边界信息。具体来说，AHPF 生成器将初始融合的作为输入，并预测空间变量高通滤波器。它由卷积层、softmax 层和滤波器反转操作组成，表示为：

其中包含每个位置的初始核。表示高通滤波器的核大小。为了确保最终生成的核是高通的，我们按照 [83] 的方法，首先使用核级 softmax 获得低通核，然后通过从身份核中减去它们来反转核，当时，其权重为 [[0, 0, 0], [0, 1, 0], [0, 0, 0]]。在应用高通滤波器并添加残差后，我们得到增强的结果，表示为：

在图 10 中，AHPF 生成器在增强详细边界信息方面的有效性显而易见。例如，原始特征在描绘公交车轮廓和人头细节方面缺乏清晰度。然而，随着 AHPF 生成器的加入，这些边界细节得到了显着改善，从而产生了更精细、更精致的低级特征。AHPF 生成器引入的增强功能突出了其捕获和保存复杂细节和边界的能力，这对于需要高分辨率和准确特征表示的任务至关重要。这些可视化证实并符合图 11 中所示的定量频率分析，这表明 AHPF 生成器增强了奈奎斯特频率以上的高频功率。

表 1 中的定量分析表明，它提高了边界相似度裕度（0.228→0.239）和边界相似度准确度（0.718→0.728）。这表明 AHPF 生成器在解决边界位移问题方面具有优势。

5 实验结果

我们首先展示了所提出的 FreqFusion 在四个典型的密集预测任务中的通用性，包括语义分割、对象检测、实例分割和全景分割。按照设置 [22]、[71]，我们将反卷积和像素混洗 [62] 中的内核大小设置为 3。对于 CARAFE [94]，我们遵循其默认配置。我们使用 IndexNet [95] 的“HIN”版本和 A2U [66] 的“dynamic-csd†”版本。为了在所有密集预测任务中保持稳定性，我们选择了没有门控机制的 FADE [23] 和 SAPA-B [22]。

5.1 语义分割

语义分割需要预测每个像素的类别标签，以确保属于同一对象类别的像素组被适当地聚类。通常，分割模型的解码器采用逐级上采样和融合架构 [17]、[30]，突出了特征融合在此过程中的关键作用。

鉴于特征融合的重要性，FreqFusion 特别适合在语义分割任务的背景下证明其行为的合理性。此任务的固有要求涉及对不同对象类的像素进行精确聚类和分离。这需要较低的类别内不一致性和较低的边界位移，这强调了有效的特征融合机制（例如 FreqFusion 所采用的机制）的重要性。

5.1.1 实验设置

数据集。我们在几个流行的具有挑战性的数据集上评估了我们的方法，包括 Citysacpes [96]、ADE20K [33] 和 COCOStuff [97]。Citysacpes [96] 包含 19 个用于语义分割任务的语义类别，由 5,000 张 2048 × 1024 像素的精细注释图像组成，其训练、验证和测试集分别有 2,975、500 和 1,525 个样本。我们只使用训练集进行学习。ADE20K [33] 是一个具有挑战性的数据集，包含 150 个语义类。它由 20,210、2,000 和 3,352 张用于训练、验证和测试集的图像组成。COCO-Stuff [97] 是一个具有挑战性的基准，总共包含 172 个语义类别和 164k 张图像。即 118k 用于训练、5k 用于验证、20k 用于测试开发和 20k 用于测试挑战。

指标。与 Segformer [30]、Mask2Former [32] 和 SegNext [31] 等先前的研究一致，我们使用平均并集交集 (mIoU) 评估整体结果的分割质量，并使用边界并集交集 (bIoU) [98] 评估边界描绘的分割质量。此外，我们还提供了有关 GFLOP 数量和参数的结果，以便全面比较计算和存储成本。

实施细节。当将所提出的方法应用于现有方法（SegFormer [30]、Mask2Former [32]、SegNeXt [31] 等）时，我们采用其原始训练设置。例如，对于 SegFormer [30] 和 SegNeXt [31]，我们使用常见的数据增强，包括随机水平翻转、从 0.5 到 2 的随机调整大小以及随机裁剪（Cityscapes 上为1024×1024，ADE20K 和 COCO-Stuff 上为 512×512）。Cityscapes 数据集的批量大小设置为 8，其他所有数据集的批量大小设置为 16。AdamW [99] 用于训练我们的模型。初始学习率为 0.00006，采用多学习率衰减策略 [3]。我们针对 ADE20K 和 Cityscapes 对模型进行了 160K 次迭代训练，针对 COCO-Stuff 对模型进行了 80K 次迭代训练。对于融合了 4×、8×、16× 和 32× 下采样特征的 SegFormer [30] 和 Mask2Former [32]，我们使用了 3 个 FreqFusion 模块。对于融合了 8×、16× 和 32× 下采样特征的 SegNeXt [31]，我们使用了 2 个 FreqFusion 模块。

5.1.2 语义分割结果

与之前最先进的方法进行比较。如表 2 所示，采用广泛使用的 SegFormer-B1 [30] 作为分割模型，FreqFusion 在 ADE20K 上实现了 2.8 mIoU 的改进，超越了所有之前最先进的竞争对手，包括 CARAFE、IndexNet、A2U、FADE、SAPA-B、Dysample-S+ 和 Dysample+。值得注意的是，FreqFusion 的表现比排名第二的 Dysample-S+ 好 1.2 mIoU。

与最先进的方法相结合。如表 3 所示，当使用 Mask2Former [32] 作为分割模型时，FreqFusion 在 Cityscapes 数据集上实现了 1.4 mIoU 的显著改进，优于采用基于偏移机制的竞争对手，包括 AlignSeg、IFA、SFNet 和原始 Mask2Former。值得注意的是，即使使用 ResNet-50 作为主干，FreqFusion 也表现出卓越的性能，以 0.4 mIoU 的优势超越了采用更重 ResNet-101 的Mask2Former。

与各种模型结构的结合。在表 4 中，我们将 FreqFusion 应用于各种最先进的方法，从最近的 CNN（例如 SegNeXt [31]）到 Transformers（例如 SegFormer [30]）。UPerNet [17] 采用 FPN [16] 结构，而 SegFormer [30] 和 SegNeXt [31] 使用连接进行特征融合。虽然它们的结构显示出很大的差异，但我们的 FreqFusion 可以用非常少的额外参数和计算持续提高它们的性能。这表明 FreqFusion 可以很好地推广到各种现代模型结构。

与大型模型结合。当应用于具有大型主干的 MaskFormer 时，FreqFusion 在 mIoU 指标方面表现出显著的改进。具体而言，使用 Swin-B 时，mIoU 从 53.9 增加到 55.3 (+1.4)，使用 Swin-L 时，mIoU 从 56.1 增加到 56.8 (+0.7)，如表 5 所示。这一观察结果强调了 FreqFusion 的有效性，即使与最近最先进的重分割模型集成也是如此。这意味着类别内不一致和边界位移是这些高级模型中普遍存在的挑战。

使用各种具有挑战性的数据集进行实验。利用 SegNeXt [31] 作为分割模型，我们对各种具有挑战性的数据集进行了实验。如表 6 所示，结果一致表明，所提出的 FreqFusion 可在多个数据集上带来改进。具体而言，FreqFusion 在 Cityscapes、ADE20K 和 COCO-stuff 上分别将 SegNeXt [31] 提高了 1.0、2.4 和 2.0。

FPS 结果。在这里，我们提供了额外的 FPS（每秒帧数）结果，以便进一步进行效率分析和比较。如表 7 和表 8 所示，当将我们的方法与最先进的高效分割模型 SegNeXt 相结合时，FreqFusion 引入了比最近最先进的方法 Dysample [71] 更多的参数和 GFLOP。然而，FreqFusion 的性能提升 (+2.4 mIoU vs. +1.1 mIoU) 比 Dysample 高得多。此外，FreqFusion 实现了 23.0 的 FPS，非常接近最近最快的 Dysample [71] 的 FPS 25.9。这表明，虽然所提出的方法速度稍慢，但它实现了更高的准确率，证明了我们方法的令人满意的效率。

视觉结果。如图 12 所示，我们将特征可视化。与标准特征融合相比，FreqFusion 获得的融合特征表现出更一致的特征和更清晰的边界。此外，在图 13 和 14 中，我们展示了 Cityscapes [96] 和 ADE20K [33] 上的分割结果的额外可视化。与采用标准特征融合的基线模型 SegNeXt [31] 和 SegFormer [30] 相比，提出的 FreqFusion 显著提高了分割精度和一致性。这些结果验证了 FreqFusion 的有效性。

5.2 物体检测

物体检测同时解决了“在哪里和什么”问题，包括通过边界框定位物体和分配类别标签。这个双重目标需要准确的空间定位和精确的物体分类。鉴于 FPN 类架构在许多现有物体检测器中的普遍性，特征融合的作用对于获得语义一致且清晰的特征图至关重要，从而提高模型在定位和分类方面的整体性能。

5.2.1 实验设置

数据集和指标。对于物体检测实验，我们利用 MS COCO [34] 数据集，涵盖 80 个物体类别。使用平均精度 () 指标进行评估。采用标准 COCO 指标，包括（在 IoU 阈值 0.5 到 0.95 上取平均值，步幅为 0.05）、（IoU 阈值为 0.5）、（IoU 阈值为 0.75）、、和。这里，、和分别表示小（面积：10-144 像素）、中（面积：144 到 1024 像素）和大物体（面积：1024 像素及以上）。

实施细节。在现有的各种检测器中，我们选择了广泛使用的 Faster R-CNN [1]，以 ResNet-50 和 ResNet-101 [13] 作为基线。多年来，Faster RCNN 经历了多次设计迭代，自其原始版本以来表现出稳定的性能和显着的改进。我们选择基于 Faster R-CNN 架构来验证 FreqFusion。采用 mmdetection [101] 提供的实现，遵循其 1×（12 个epoch）训练配置。仅对特征金字塔网络 (FPN) 中的特征融合阶段进行了修改。

5.2.2 物体检测结果

定量和定性结果如表 9 和图 15 所示。FreqFusion 表现出最高的性能，在 COCO 数据集上实现了显着的 1.9 AP 改进，超越了所有竞争方法，包括 CARAFE、IndexNet、A2U、FADE、SAPA-B、Dysample-S+ 和 Dysample+。

值得注意的是，FreqFusion 领先于排名第二的 Dysample+，实现了 0.7 AP 的大幅领先优势。即使以 ResNet-50 为主干，与更强大的 ResNet-101 相比，FreqFusion 仍保持了竞争性的性能，在 39.4 AP 时取得了相当的结果。

当使用 ResNet-101 作为主干时，FreqFusion 继续提供令人称赞的 1.6 AP 改进，比 Dysample+ 高出 0.5 AP。这些结果强调了 FreqFusion 在增强物体检测性能方面的稳健性和有效性。

5.3 实例分割

实例分割是一项涉及检测和描绘图像中每个不同对象的任务。实例分割的复杂性不仅要求保存一致的类别信息，还要求精确描绘对象边界。因此，特征融合的选择和质量成为实例分割模型设计和评估的关键组成部分。

5.3.1 实验设置

数据集和指标。与对象检测类似，我们利用广泛使用的 MS COCO [34] 数据集进行实例分割实验。评估指标包括标准 Box AP（平均精度）和 Mask AP，对检测和分割性能进行全面评估。

实施细节对于我们的实例分割实验，我们采用 Mask RCNN [4] 和 ResNet-50 和 ResNet-101 [13] 作为基线架构。遵循与 Faster R-CNN 类似的方法，我们的修改仅限于特征金字塔网络 (FPN) 内的特征融合阶段。使用来自 mmdetection [101] 的代码库，训练遵循默认的 1× 计划，包括 12 个epoch。对于融合 4×、8×、16× 和 32× 下采样特征的 Faster R-CNN 和 FPN，我们使用 3 个 FreqFusion 模块。

5.3.2 实例分割结果

定量和定性结果如表 10 和图 15 所示，以 ResNet 为主干。FreqFusion 表现出色，在 COCO 数据集上实现了 1.3 倍的 mask AP 和 1.7 倍的 box AP 的显著提升。这一成就使 FreqFusion 成为领先方法，超越了包括 CARAFE、IndexNet、A2U、FADE、SAPA-B、Dysample-S+ 和 Dysample+ 在内的知名竞争对手。

FreqFusion 明显领先于排名第二的 Dysample+，实现了 0.3 的 mask AP 和 0.4 的 box AP。即使使用 ResNet-50 作为主干，与更强大的 ResNet-101 相比，FreqFusion 仍保持了有竞争力的性能，在 36.0 的 mask AP 和 40.0 的 box AP 下获得了可比的结果。以 ResNet-101 为主干，FreqFusion 持续提供值得称赞的改进，实现了 1.4 的 mask AP 和 1.6 的 box AP 提升。这种优异表现突出地体现在 0.6/0.6 的 mask/box AP 领先 Dysample+。这些结果强调了 FreqFusion 在提高实例分割性能方面的稳健性和有效性。

5.4 全景分割

全景分割是语义分割和实例分割的综合集成，为在像素级别对事物进行分类提供了整体视角。在本节中，我们研究了各种特征融合方法对全景分割任务的影响。

5.4.1 实验设置

数据集和指标。对于全景分割，我们使用 MS COCO [34] 数据集，该数据集包含 80 个对象类别。在此背景下，我们报告特定于任务的指标，即 PQ、SQ 和 RQ [5]，作为我们的评估标准。

实施细节。从全景分割模型中，我们选择使用 ResNet-50 的 Panoptic FPN [18]，仅修改 FPN 中的上采样阶段。使用 mmdetection [101] 代码库，我们遵循 1×（12 个时期）训练配置。对于融合 4×、8×、16× 和 32× 下采样特征的 Panoptic FPN，我们使用 3 个 FreqFusion 模块。

5.4.2 全景分割结果

为了建立清晰且可控的基线，我们保持了与之前工作 [71] 相同的设置。这使我们能够公平地评估归因于 FreqFusion 的性能改进，并将其与最近最先进的特征融合方法进行比较。

表 11 全面概述了定量结果，其中 ResNet 是主干。定性结果如图 15 所示。FreqFusion 表现出色，在 COCO 数据集上显著提高了 2.5 PQ。这使得 FreqFusion 成为领先方法，超越了包括 CARAFE、IndexNet、A2U、FADE、SAPA-B、Dysample-S+ 和 Dysample+ 在内的知名竞争对手。

值得注意的是，FreqFusion 大幅领先于排名第二的 Dysample+，实现了 1.2 PQ 的显著优势。即使使用 ResNet-50 作为主干，与更强大的 ResNet-101 相比，FreqFusion 仍保持了有竞争力的性能，实现了 42.7 PQ 的更高结果，而非 42.2 PQ。

以 ResNet-101 为基础，FreqFusion 持续提供值得称赞的改进，实现了显著的 1.8 PQ 提升。与 Dysample+ 相比，1.0 AP 的领先优势进一步凸显了这种优异表现。这些结果有力地强调了 FreqFusion 在提升全景分割性能方面的稳健性和有效性。

5.5 消融研究

在本节中，我们对所提出的 FreqFusion 进行消融研究。我们使用最新最先进的高效分割架构 SegNeXt [31] 作为其高性能和高效率的基线。结果在具有挑战性的数据集 ADE20K [33] 上报告。

三个生成器的消融研究。表 12 提供了一项全面的消融研究，细致地评估了自适应低通滤波器 (ALPF)、自适应高通滤波器 (AHPF) 和偏移生成器在 FreqFusion 的最终融合过程中的各自贡献。当单独引入 ALPF 时，可以观察到 mIoU 的微小但值得注意的改进 +0.9。这表明自适应低通滤波对在上采样期间细化高级特征的初步影响。ALPF 和 AHPF 的组合表现出协同效应，从而产生了更显着的增强。mIoU 达到 42.9 (+1.8)，突出了两个生成器在解决类别内不一致和边界位移方面发挥的互补作用。值得注意的是，加入偏移生成器导致最高的 mIoU 为 43.5 (+2.4)。这些发现强调了 FreqFusion 中 ALPF、AHPF 和偏移生成器的协同有效性。每个组件都有助于解决与像素类别一致性和空间边界精度相关的特定挑战。表 1 中的定量分析还验证了三个生成器有助于解决类别内一致性和边界位移问题。

自适应滤波器核大小的消融研究。如表 13 所示，我们还研究了自适应低通/高通滤波器的核大小，即和。当和时，所提出的 FreqFusion 比 SegNeXt [31] 提高了 0.8 mIoU。将自适应低通滤波器的核大小从增加到可额外提高 1.0 mIoU，并且性能从到保持一致。但是，将自适应高通滤波器的核大小从进一步增加到会导致性能下降，即从 42.9 降至 42.4。因此，我们设置和。

偏移生成器的消融研究。在这里，我们进一步研究了偏移组的设置。特征沿通道维度分为不同的组，并生成不同的偏移组，每组共享相同的采样集以实现更精细的重采样。如表 14 所示，结果表明，使用四个偏移组可实现最高的 mIoU 43.5，表明这种配置可以最有效地细化分割预测。将偏移组的数量增加到四个以上并不会带来显着的改进，甚至可能导致性能略有下降。

初始融合的消融研究。尽管许多研究都承认简单插值方法会导致边界模糊的问题，但许多研究仍然采用双线性插值等技术进行初始融合 [19]、[23]。表 15 中的结果证明了增强初始融合在提高分割性能方面的有效性。当单独使用 ALPF 生成器时，mIoU 明显提升了 +0.3。此外，增强初始融合中 ALPF 和 AHPF 生成器的组合将性能进一步提升到 43.5。这凸显了两个生成器在初始融合过程中细化分割特征的协同作用。研究结果强调了初始融合阶段对于实现卓越分割结果的重要性。通过解决简单插值方法的固有局限性（例如模糊边界），我们可以显着提高分割结果的准确性和质量。

6 与相关工作的讨论

我们的工作在各个方面与以前的研究密切相关，我们详细阐述了这些关系和区别。

基于核的方法（如 A2U [66] 和 IndexNet [65]）完全依赖低级特征来生成动态核，因此存在将噪声引入核的风险。同样，SAPA [22] 利用低级和高级特征之间的相似性来生成核，但这种方法也存在引入噪声的可能性。相比之下，CARAFE [94] 仅使用高级特征来生成动态核，忽略了低级特征固有的高分辨率结构的重要性，而这已被证明对于有效上采样至关重要 [23]。相反，FADE [23] 结合了低级和高级特征来生成动态核。然而，它仍然采用简单的最近邻插值进行上采样，导致边界位移问题。为了应对这些挑战，我们提出的 FreqFusion 同时利用了低级和高级特征，并引入了 ALPF 生成器和 AHPF 生成器来增强初始融合。

近期基于采样的方法，例如 AlignSeg [68]、IFA [20]、SFNet [19]、FaPN [69] 和 Dysample [71]，主要通过学习对具有潜在特征不一致的特征进行采样来增强上采样。相比之下，FreqFusion 采用了一种新颖的方法。它首先平滑高级特征以减少整体特征不一致，然后利用局部相似性作为指导，最后学习对特征进行重新采样以替换不一致的特征。

现有的基于核和基于采样的方法主要侧重于改进特征融合中的上采样过程，而 FreqFusion 更进一步，从低级特征中提取高频信息并将其残差合并以增强特征融合。此外，尽管先前的研究从经验上观察到了标准特征融合中的问题并试图解决这些问题，但它们缺乏定量测量支持的明确定义。相反，我们通过特征相似性分析来精确识别和定义类别内不一致和边界位移的问题，并对其进行测量。提出的 FreqFusion 有效地解决了这些问题，旨在同时实现特征一致性和边界清晰度。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述