Learning to Upsample by Learning to Sample论文翻译

森爱。

于 2024-07-15 10:12:33 发布

阅读量1.1k

点赞数 8

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_69854365/article/details/139539198

版权

cvpr 2023 通过学习采样来学习上采样

论文地址 https://arxiv.org/abs/2308.15085

代码 https://github.com/tiny-smart/dysample

摘要

我们提出了DySample，一个超轻量且有效的动态上采样器。最近基于卷积核的动态上采样器（如CARAFE、FADE和SAPA）展现出了令人瞩目的性能提升，但它们引入了大量的工作量，主要是由于耗时的动态卷积和用于生成动态卷积核的额外子网络。此外，FADE和SAPA对高分辨率特征引导的需求在一定程度上限制了它们的应用场景。为了解决这些问题，我们绕过动态卷积，从点采样的角度制定上采样方法，这种方法更加资源高效，并且可以很容易地在PyTorch的标准内置函数中实现。我们首先展示了一个原始的设计，然后逐步展示如何加强其上采样行为，直至实现我们的新型上采样器DySample。与以往基于卷积核的动态上采样器相比，DySample不需要定制的CUDA包，参数、FLOPs、GPU内存和延迟都大大减少。除了轻量级特性外，DySample在包括语义分割、目标检测、实例分割、全景分割和单目深度估计在内的五项密集预测任务中表现优异。代码可在https://github.com/tiny-smart/dysample 上找到。

1.引言

特征上采样是密集预测模型中逐步恢复特征分辨率的重要组成部分。最常用的上采样器是最近邻法(NN)和双线性插值法，后者遵循固定规则对上采样值进行内插。为了增加灵活性，在一些特定的任务中引入了可学习的上采样器，例如实例分割[13]中的去卷积和图像超分辨率[31，12，22]中的像素重组[34]。然而，他们要么受到棋盘伪影的困扰[32]，要么似乎对高级任务不友好。随着动态网络[14]的普及，一些动态上采样器在几个任务上显示出了巨大的潜力。Carafe[37]生成内容感知的上采样核以通过动态卷积对特征进行上采样。随后的工作Fade[29]和SAPA[30]建议将高分辨率引导特征和低分辨率输入特征相结合来生成动态核，使得上采样过程可以由高分辨率结构来引导。这些动态上采样器往往结构复杂，需要定制CUDA实现，并且比双线性插值法需要更多的推理时间。尤其是对于FADE和SAPA，更高分辨率的引导功能会带来更多的计算工作量，并缩小它们的应用场景(必须提供更高分辨率的功能)。与早期的平面网络不同[27]，现代建筑中经常使用多尺度特征；因此，高分辨率特征作为上采样器的输入可能不是必要的。例如，在特征金字塔网络(FPN)[23]中，高分辨率特征将在上采样之后添加到低分辨率特征中。因此，我们相信一个设计良好的单输入动态上采样器就足够了。

考虑到动态卷积带来的繁重的工作量，我们绕过了基于核的范式，回到了上采样的本质，即点采样，重新制定了上采样过程。具体地说，我们假设输入特征被双线性内插到连续的特征，并且生成内容感知的采样点来对连续的地图进行重新采样。从这个角度来看，我们首先提出了一个简单的设计，其中逐点偏移是通过线性投影生成的，并使用PyTorch中的GRID SAMPLE函数对点值进行重采样。然后，我们展示了如何通过一步一步的调整来改善它：i)控制初始采样位置，ii)调整偏移量的移动范围，iii)将上采样过程分成几个独立的组，得到我们新的上采样器DySample。在每个步骤中，我们都会解释为什么需要调整，并进行实验来验证性能收益。

与其他动态上采样器相比，DySample i)不需要高分辨率的引导特征作为输入，ii)除了PyTorch之外不需要任何额外的CUDA包，特别是iii)具有更少的推理延迟、内存占用、Flop和参数数量，如图1和图8所示。例如，在以MaskFormer-SwinB[8]为基线的语义分割上，DySample的性能比Carafe高46%，但只需要3%的参数数量和20%的Carafe Flop。由于高度优化的PyTorch内置函数，DySample的推理时间也接近双线性插值法(上采样256×120×120特征地图时为6.2ms，而上采样为1.6ms)。除了这些吸引人的轻量级特征外，DySample还报告了在五个密集预测任务中比其他上采样器更好的性能，包括语义分割、对象检测、实例分割、全景分割和单目深度估计。

图1.不同上采样器的性能、推理速度和GFLOPS的比较。圆的大小表示GFLOPS的成本。通过对大小为256×120×120的特征图进行×2次上采样来测试推理时间。使用SegFormer-B1[40]在ADE20K数据集[42]上测试了MIUU性能和其他GFLOP。

图8.复杂性分析。DySample系列在SegFormer-B1[40]上实现了整体最好的性能，并且在最近的强动态上采样器中耗费的延迟、内存占用、训练时间、GFLOP和参数数量最少。通过在服务器上使用单个NVIDIA GTX 3090图形处理器对256×120×120特征地图(如果需要，还包括256×240×240引导特征)进行上采样来测试推断时间。‘+’表示与双线性插值法相比的附加量。

总而言之，我们认为DySample在现有的稠密预测模型中可以安全地取代NN/双线性插值法，不仅是有效的，而且是高效的。

2.相关工作

我们回顾了深度学习中的密集预测任务、特征上采样算子和动态采样。

密集预测任务。

密集预测是指需要逐点标签预测的任务分支，例如语义/实例/全景分割[2，39，40，8，7，13，11，16，19]，对象检测[33，4，24，36]，以及单目深度估计[38，18，3，21]。不同的任务往往表现出不同的特点和困难。例如，在语义分割中很难同时预测光滑的内部区域和尖锐的边缘，在实例感知任务中也很难区分不同的对象。在深度估计中，具有相同语义的像素可能具有相当不同的深度，反之亦然。人们经常不得不为不同的任务定制不同的体系结构。尽管模型结构各不相同，但上采样算子是密集预测模型中必不可少的组成部分。由于主干通常输出多尺度特征，因此需要对低分辨率特征进行上采样以获得更高的分辨率。因此，一个重量轻、效率高的上采样器将有利于许多密集的预测模型。我们将展示我们的新上采样器设计在用于语义分割的SegFormer[40]和MaskFormer[8]、用于目标检测的更快的R-CNN[33]、用于分割的MaskR-CNN[13]、用于全景分割的全景FPN[16]和用于单目深度估计的DepthFormer[21]上带来一致的性能提升，同时引入的工作量可以忽略不计。

图7.DySample中上采样过程,可视化红色框中的一部分边界将高亮显示，以便进行近距离查看。我们生成内容感知的偏移量来构造新的采样点，用双线性插值法对输入特征图进行重采样。新的采样位置由箭头指示。选择低分辨率特征中的黄色方框点来说明双线性内插过程。

特征上采样。

常用的特征上采样器有神经网络和双线性插值法。它们应用固定的规则对低分辨率特征进行内插，忽略了特征地图中的语义。SegNet[2]在语义分割中采用了Max Unpooling来保留边缘信息，但噪声和零点填充的引入破坏了平滑区域的语义一致性。与卷积类似，一些可学习上采样器在上采样中引入可学习参数。例如，反卷积以反卷积的方式对要素进行上采样。Pixel Shuffle[34]使用卷积来增加前方的通道编号，然后重塑特征映射以提高分辨率。最近，一些动态上采样算子进行了内容感知上采样。Carafe[37]使用子网络来生成内容感知的动态卷积内核，以重组输入特征。Fade[29]建议结合高分辨率和低分辨率特性来生成动态核，以便使用高分辨率结构。SAPA[30]进一步引入了点从属的概念，并计算了高分辨率和低分辨率特征之间的相似性识别核。作为模型插件，这些动态上采样器增加了比预期更多的复杂性，特别是对于需要高分辨率要素输入的Fade和SAPA。因此，我们的目标是提供一个简单、快速、低成本和通用的上采样器，同时保留动态上采样的有效性。

动态采样。

上采样是关于几何信息的建模。作为标准栅格采样的替代，工作流还通过动态采样图像或特征地图来对几何信息进行建模。戴等人。[9]和朱等人。[43]提出了一种可变形卷积网络，将标准卷积中的矩形窗采样替换为移位点采样。可变形DETR[44]遵循这种方式，并对与某一查询相关的关键点进行采样以进行可变形注意。当图像被下采样到低分辨率的图像以进行内容感知图像大小调整时，也会发生类似的做法。接缝裁剪[1]。例如，张等人。[41]为了保留原始图像的更多信息，金等人提出了学习使用显著引导对图像进行下采样的方法。[15]还设置了一个可学习变形模块来对图像进行下采样。

与现有的基于核的上采样器不同，我们将上采样的本质解释为点重采样。因此，在特征上采样中，我们倾向于遵循与上述工作相同的精神，用简单的设计来实现强大而高效的动态上采样器。

3.学习采样和上采样

在本节中，我们将详细介绍DySample及其变体的设计。我们首先介绍一个简单的实现，然后展示如何逐步改进它。

3.1.初步

根据建模的几何信息，我们回到了上采样的本质，即点采样。利用PyTorch中的内置函数，我们首先提供一个简单的实现来演示基于采样的动态上采样的可行性(图2(A))。

图2. 基于采样的动态上采样和DySample模块设计。输入特征、上采样特征、生成的偏移和原始栅格分别由X、X‘、O和G表示。(A)采样点生成器生成采样集，网格采样函数利用采样点生成器对输入特征进行重采样。在生成器(B)中，采样集是生成的偏移量和原始网格位置的和。上面的方框显示的是带有‘静态范围因子’的版本，其中偏移量是用一个线性层生成的。最下面的一个描述了带有动态范围因子的版本，其中首先产生a范围因子，然后用它来调制偏移量。‘σ’表示Sigmoid函数。

网格采样。

给定大小为C×H1×W1的特征地图X和大小为2×H2×W2的采样集S，其中第一维的2表示x和y坐标，网格采样函数使用S中的位置将假设的双线性内插的X重新采样为大小为C×H2×W2的X‘。此过程由以下定义。

本地实现。

给定S的上采样比例因子和大小为C×H×W的特征图X，使用输入和输出通道数分别为C和2S2的线性层来生成大小为2S2×H×W的偏移量O，然后通过像素改组将其重塑为2×sh×Sw[34]。则采样集S是偏移量O和原始采样网格G的和，即，

其中省略了整形操作。最后，以网格样本的采样值为Eq，生成大小为C×sh×Sw的上采样特征图X‘。(1)。

该初步设计在对象检测[25]上获得了37.9AP，RCNN[33]更快，在语义分割[42]上获得了41.9Mou。Carafe：38.6ap和42.8miou)。接下来，我们将介绍关于这个简单实现的DySample。

图6.偏移生成样式。虽然(A)‘线性层+像素重组’(LP)版本比(B)‘像素重组+线性层’(PL)版本需要更多的参数，但前者更灵活，消耗更小的内存占用，并且具有更快的推理速度。

3.2.DySample：通过动态采样进行上采样

通过对本地实现的研究，我们发现S2个上采样点之间共享的初始偏移量位置忽略了位置关系，并且偏移量的无约束行走范围会导致无序的点采样。我们首先讨论这两个问题。我们还将研究实现细节，如功能组和动态偏移范围。

初始采样位置。

在初步版本中，S2采样位置w.r.t.X中的一个点都固定在相同的初始位置(X中的标准网格点)，如图3(A)所示。这种做法忽略了S2邻近点之间的位置关系，使得初始采样位置分布不均匀。如果生成的偏移量全为零，则上采样特征等价于NN内插特征。因此，这种初步的初始化可以被称为最近的初始化。针对这个问题，我们将初始位置改为如图3(B)所示的“双线性初始化”，其中零偏移将带来双线性早期内插特征映射。更改初始采样位置后，性能提高到38.1(+0.2)ap和42.1(+0.2)miou，如表1所示。

表1.初始取样位置的消融研究。

图3.初始采样位置和偏移量范围点和彩色遮罩分别表示初始采样位置和偏移范围。考虑采样四个点(S=2)，(A)在最近初始化的情况下，四个偏移量共享相同的初始位置但忽略位置关系；在双线性初始化(B)中，我们分离初始位置使得它们均匀分布。如果没有偏置调制(B)，则偏置范围通常会重叠，因此在(C)中我们局部限制偏置范围以减少重叠。

偏移量范围。

由于规格化层的存在，某个输出特征的值通常在[−1，1]的范围内，以0为中心。因此，如图4(A)所示，局部S2采样位置的行走范围可能显著重叠。重叠很容易影响边界附近的预测(图4(B))，这种误差会逐级传播并导致输出伪影(图4(C))。为了缓解这一问题，我们将偏移量乘以0.25，这恰好满足重叠和不重叠之间的理论边际条件。如图3(C)所示，这个因子称为“静态范围因子”，这样采样位置的行走范围是局部受限的。在这里，我们重写公式。(2)作为

图4.由偏移重叠引起的预测伪像。如果偏移量重叠(A)，则边界附近的点值可能是无序的(B)，并且误差将逐层传播，最终导致预测伪影(C)。

通过将范围因子设置为0.25，性能可提高到38.3(+0.2)AP和42.4(+0.3)MIoU。我们还测试了其他可能的因素，如表2所示。备注：乘以因子是问题的软性解决方案；它不能完全解决问题。我们还尝试使用TANH函数严格约束[−0.25，0.25]中的偏移量范围，但效果较差。可能显式约束限制了表示能力，例如，显式约束版本不能处理某些特定位置期望大于0.25的移位的情况。

表2.静态范围因素对烧蚀影响的研究。

分组。

这里我们研究分组上采样，其中每个组中的特征共享相同的采样集。具体地说，可以沿着通道维度将特征映射划分为g个组，并生成g组偏移量。根据图5，分组是可行的。当g=4时，性能达到38.6(+0.3)ap和43.2(+0.8)miou。

图5.特征组数量的消融研究

动态范围系数。

为了增加偏移的灵活性，我们通过对输入特征进行线性投影来进一步产生逐点的动态范围因子。通过使用Sigmoid函数和0.5的静态系数，动态范围取以0.25为中心的[0，0.5]范围内的值作为静态范围。动态范围操作可以参照图2(B)。在这里，我们重写公式。(4)作为

根据表3，动态范围系数进一步将性能提升至38.7(+0.1)AP和43.3(+0.1)MIU.

表3.动态范围系数对烧蚀影响的研究。

偏移生成样式。

在上面的设计中，首先使用线性投影来生成S2偏移集。然后对集合进行重塑以满足空间大小。我们把这个过程称为‘线性+像素重组’(LP)。为了节省参数和GFLOP，我们可以提前执行重塑操作，即首先将特征X重塑到Cs2×sh×Sw的大小，然后将其线性投影到2g×sh×Sw。类似地，我们称这个过程为‘像素重组+线性’(PL)。在其他超级参数固定的情况下，在PL设置下，参数的数量可以减少到1/S4。通过实验，我们根据图5经验地分别将LP和PL版本的基团数设置为4和8。此外，我们发现PL版本在SegFormer(表4)和MaskFormer(表5)上的性能优于LP版本，但在其他测试模型上略差。

表4.在ADE20K上使用SegFormer-B1进行语义分割的结果最佳表现用黑体标出，次佳用下划线标出。

DySample系列。根据作用域因子(静态/动态)和偏移量生成样式(Lp/PL)的形式，我们研究了四种变体：

i)DySample：具有静态作用域因子的LP-Style；

ii)DySample+：具有动态作用域因子的LP-Style；

iii)DySample-S：具有静态作用域因子的PL-Style；

iv)DySample-S+：具有动态作用域因子的PL-Style

3.3.DySample

如何工作DySample的采样过程如图9所示。我们突出显示一个(红色方框)局部区域，以显示DySample如何将边缘上的一个点分割为四个点，以使边缘更清晰。对于黄色盒子的点，它生成四个偏移量，指向双线性插值法意义上的四个上采样点。在这个例子中，左上角的点被划分为“天空”(较亮)，而其他三个点被划分为“房子”(较暗)。最右侧的子图表示右下角的上采样点是如何形成的。

图9.定性可视化。从上到下依次为：语义分割、目标检测、实例分割、全景分割、单目深度估计。

3.4.复杂性分析

我们使用256×120×120的随机特征图(如果需要，还有256×240×240的引导图)作为输入来测试推理延迟。我们使用SegFormerB1来比较当双线性内插(默认)被其他上采样器取代时的性能、训练记忆、训练时间、GFLOPS和参数数目。定量结果如图8所示。除了最好的性能外，DySample系列比以往的所有强动态上采样器的推理延迟、训练记忆、训练时间、GFLOPS和参数数量都要少。对于推理时间，DySample序列对一个256×120×120特征图进行上采样所需的时间为6.2∼7.6ms，接近于胆管插值法的1.6ms。特别是，由于使用了高度优化的PyTorch内置函数，DySample的反向传播相当快，增加的训练时间可以忽略不计。在DySample系列中，‘-S’版本耗费的参数和GFLOP较少，但内存占用和延迟较大，因为PL需要额外的X存储空间。‘+’版本也引入了更多的计算量。

3.5.关于做好相关工作的探讨

在这里，我们将DySample与Carafe[37]、SAPA[30]和Deformable Attendant[44]进行比较。

与CARAFE的关系。

Carafe生成Content Aware上采样内核以重新组合输入特征。在DySample中，我们生成上采样位置，而不是内核。在基于内核的观点下，DySample使用2×2双线性核，而Carafe使用5×5双线性核。在Carafe中，如果将一个内核放置在一个点上，则内核大小必须至少为3×3，因此GFLOPS至少是DySample的2.25倍。此外，Carafe中的上采样核权重是学习的，但在DySample中，它们是以x和y位置为条件的。因此，要维护单个内核，DySample只需要2通道特征映射(给定组号g=1)，但Carafe需要K×K通道映射，这解释了DySample更高效的原因。

与SAPA的关系。

SAPA将语义聚类的概念引入到特征上采样中，认为上采样过程就是为每个上采样点找到一个正确的语义聚类。在DySample中，偏移量生成也可以被视为为每个点寻找语义相似的区域。然而，DySample不需要导航地图，因此更高效、更易于使用。

与可变形的注意力有关。

可变形注意力[44]主要增强特征；它在每个位置对许多点进行采样，以聚集这些点以形成新的点。但DySample是为上采样量身定制的；它为每个上采样位置采样一个点，以将一个点划分为S平方个上采样点。DySample显示，只要可以动态划分上采样的S平方点，对于每个上采样位置采样单个点就足够了。

4.适用范围

在这里，我们将DySample应用于五个密集预测任务，包括语义分割、目标检测、实例分割、全景分割和深度估计。在众多的上采样竞争者中，对于双线性插值，我们将缩放因子设置为2，并将“对齐角落”设置为False。对于反卷积，我们设置卷积核大小为3，步长为2，填充为1，输出填充也为1。对于像素重组 [34]，我们首先使用3个卷积核大小的卷积来增加通道数，使其变为原来的4倍，然后应用“Pixel Shuffle”函数。对于CARAFE [37]，我们采用其默认设置。此外，我们还使用了IndexNet的“HIN”版本[28]和A2U的“dynamic-cs-d†”版本[10]。我们选择不使用门控机制的FADE [29]和SAPA-B [30]，因为它们在所有密集预测任务中表现更为稳定。

4.1.语义分割

语义分割推断每个像素的类别标签。在典型的模型中，为了获得高分辨率的输出，常常需要多次使用上采样器。精确的每像素预测在很大程度上取决于上采样质量。

实验性协议。

我们使用ADE20K[42]数据集。除了常用的Miou度量外，我们还报告了Biou[6]度量来评估边界质量。我们首先使用一个轻量级的基线SegFormer-B1[40]，其中包括3+2+1=6个上采样级，然后在一个更强的基线MaskFormer[8]上测试DySample，其中以Swin-B[26]和Swin-L为骨干，其中3个上采样级参与到固定概率网络中。我们使用作者提供的官方代码库，并遵循除修改上采样阶段外的所有训练设置。

语义分割结果。

表4和表5显示了量化结果。我们可以看到DySample在SegFormer-B1上达到了43.58的最佳Mou度量，但Biou度量低于Fade和SAPA等引导上采样器。因此，我们可以推断DySample主要从内部区域改善性能，而导引上采样器主要改善边界质量。如图9第1行所示，DySample的输出与Carafe相似，但在边界附近更独特；引导上采样器预测更清晰的边界，但对内部区域的预测是错误的。对于更强的基线MaskFormer，DySample还使用Swin-B将MIU度量从52.70提高到53.91(+1.21)，使用Swin-L从54.10提高到54.90(+0.80)。

表5.在ADE20K上使用MaskFormer进行语义分割的结果。最佳表现用黑体标出，次佳用下划线标出。

4.2.对象检测和实例分割

实例级的任务，对象检测的目的是对对象进行定位和分类，而实例分割则需要对对象进行进一步的分割。上采样要素的质量对分类、定位和分割精度有很大影响

实验性协议。

我们使用MS Coco[25]数据集。报告了AP系列指标。较快的RCNN[33]和MASK R-CNN[13]被选为基线。为了进行性能比较，我们对FPN结构中的上采样器进行了修改。快速R-CNN和MASK R-CNN的FPN分别有4个和3个上采样级。我们使用MmDetect[5]提供的代码，并遵循1倍训练设置。

对象检测和实例分割结果。

表6和表7显示了定量结果。结果表明DySample优于所有比较的上采样器。使用R50，DySample在所有测试的上采样器中实现了最好的性能。当使用更强大的主干时，也可以看到显著的改善(在更快的R-CNN上R50+1.2与R101+1.1盒AP，在MASK R-CNN上R50+1.0与R101+0.8掩码AP)。

表6.在MS Coco上使用更快的R-CNN进行目标检测的结果。最佳表现用黑体标出，次佳用下划线标出。

表7.在MS Coco上使用MASK R-CNN的实例分割结果参数增量与更快的R-CNN相同。最佳表现用黑体标出，次佳用下划线标出。

4.3.全景分割

全景分割是语义分割和实例分割的共同任务。在这种背景下，上采样器面临着实例边界识别的困难，这对上采样器良好的语义感知和区分能力提出了很高的要求。

实验性协议。

我们还在MS Coco[25]数据集上进行了实验，并报告了PQ、SQ和RQ指标[17]。我们采用全光FPN[16]作为基准点，以mm检测为码基。默认培训设置用于确保公平比较。我们只修改了FPN中总共三个上采样级。

全景分割结果。

表8中显示的定量结果表明，DySample带来了一致的性能提升，即R50和R101主干的PQ分别提高了1.2和0.8PQ。

表8.在MS COCO上使用全景FPN进行全景分割的结果。最佳表现用黑体标出，次佳用下划线标出。

4.4.单目深度估计

单目深度估计需要一个模型来估计来自单个图像的每个像素的深度图。一个高质量的深度估计上采样器应该同时恢复细节，保持平原地区深度值的一致性，并处理逐渐变化的深度值。

实验性协议。

我们在纽约大学深度V2数据集[35]上进行了实验，并报告了δ＜1.25、δ＜1.25平方和δ＜1.25立方的精度、绝对相对误差(Abs Rel)、均方根误差(RMS)及其对数版本(Rms(LOG))、平均对数误差(Log10)和平方相对误差(Sq Rel)。我们采用DepthFormer-Swint[21]作为基线，在融合模块中包括四个上采样阶段。为了重现性，我们使用单目深度估计工具箱[20]提供的代码基，并遵循其推荐的训练设置，同时只修改上采样器。

单眼深度估计结果。

在所有上采样器中，DySample+的性能最好，与双线性上采样器相比，δ&lt；1.25的精度提高了0.05%，Abs REL降低了0.04%，均方根值降低了0.09%。此外，图9第5行中的定性比较也验证了DySample的优越性，例如，准确、一致的椅子深度图。

表9.DepthFormer(Swin-T)在NYU Depth V2上的单眼深度估计结果。最佳表现用黑体标出，次佳用下划线标出。

5.结论

提出了一种快速、有效、通用的动态上采样器DySample。与常用的基于核的动态上采样不同，DySample是从点采样的角度设计的。我们从一个原始的设计开始，并展示如何从我们对上采样的深刻洞察中逐步提高其性能。与其他动态上采样器相比，DySample不仅报告了最好的性能，而且摆脱了定制的CUDA包，消耗了最少的计算资源，在延迟、训练内存、训练时间、GFLOP和参数数量方面显示出优势。在未来的工作中，我们计划将DySample应用于低层任务，并研究上采样和下采样的联合建模。