GhostNetV2（2022）（全文翻译）

最新推荐文章于 2024-05-10 18:09:22 发布

m0_60534571

最新推荐文章于 2024-05-10 18:09:22 发布

阅读量1.6k

点赞数 2

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_60534571/article/details/129637520

版权

GhostNetV2: Enhance Cheap Operation with Long-Range Attention

Abstract

轻量级卷积神经网络 (CNN) 专为推理速度更快的移动设备上的应用而设计。卷积运算只能捕获窗口区域的局部信息，这阻碍了性能的进一步提高。将self-attention引入卷积可以很好地捕捉全局信息，但会在很大程度上阻碍实际速度。在本文中，我们提出了一种硬件友好的注意力机制（称为 DFC 注意力），然后提出了一种用于移动应用程序的新 GhostNetV2 架构。所提出的DFC 注意力是基于全连接层构建的，它不仅可以在普通硬件上快速执行，还可以捕获远程像素之间的依赖关系。我们进一步重新审视了之前 GhostNet 的表达瓶颈，并提出用 DFC 注意力增强廉价操作产生的扩展特征，以便GhostNetV2 块可以同时聚合本地和远程信息。大量实验证明了 GhostNetV2优于现有架构的优势。例如，它在具有 167M FLOPs 的 ImageNet 上实现了75.3% 的 top-1 准确率，显着抑制了具有相似计算成本的 GhostNetV1(74.5%)。源代码可在
https://github.com/huawei-noah/Efficient-AI-Backbones/ tree/master/ghostnetv2_pytorch and https://gitee.com/mindspore/ models/tree/master/research/cv/ghostnetv2.

1 Introduction

在计算机视觉中，深度神经网络的架构在各种任务中起着至关重要的作用，例如图像分类 [19、10]、目标检测 [27、26] 和视频分析 [18]。在过去的十年中，网络架构一直在快速发展，已经开发出包括 AlexNet [19]、GoogleNet [29]、ResNet [10] 和 EfficientNet [32] 在内的一系列里程碑。这些网络将各种视觉任务的性能提升到了一个高水平。

要在智能手机和可穿戴设备等边缘设备上部署神经网络，我们不仅需要考虑模型的性能，还需要考虑其效率，尤其是实际推理速度。矩阵乘法占据计算成本和参数的主要部分。开发轻量级模型是减少推理延迟的一种有前途的方法。 MobileNet [13] 将标准卷积分解为深度卷积和点卷积，这大大降低了计算成本。 MobileNetV2 [28] 和 MobileNetV3 [12]进一步引入了反向残差块并改进了网络架构。 ShuffleNet [42] 利用 shuffle 操作来促进通道组之间的信息交换。 GhostNet [8] 提出了廉价操作来减少通道中的特征冗余。WaveMLP [33] 替换了复杂的self-attention 模块与简单的多层感知器 (MLP) 以降低计算成本。这些轻量级神经网络已应用于许多移动应用程序。

然而，基于卷积的轻量级模型在建模远程依赖方面较弱，这限制了进一步的性能提升。最近，类似transform的模型被引入计算机视觉，其中自注意力模块可以捕获全局信息。典型的自注意力模块需要二次复杂度 w.r.t。特征形状的大小并且在计算上不友好。此外，需要大量的特征分割和重塑操作来计算注意力图。尽管它们的理论复杂性可以忽略不计，但这些操作在实践中会导致更多的内存使用和更长的延迟。因此，在轻量级模型中使用vanilla self-attention 不利于移动部署。例如，具有大量自注意力操作的 MobileViT在 ARM 设备上比 MobileNetV2 慢 7 倍以上 [23]。

在本文中，我们提出了一种新的注意力机制（称为 DFC 注意力）来捕获远程空间信息，同时保持轻量级卷积神经网络的实现效率。为简单起见，只有完全连接 (FC) 层参与生成注意力图。具体来说，FC 层被分解为水平 FC 和垂直 FC，以聚合 CNN 的 2D 特征图中的像素。两个 FC 层沿各自方向涉及很长范围内的像素，将它们堆叠起来会产生一个全局感受野。此外，从最先进的 GhostNet 开始，我们重新审视其表示瓶颈，并通过 DFC 注意力增强中间特征。然后我们构建了一个新的轻量级视觉主干网 GhostNetV2。与现有架构相比，它可以在准确性和推理速度之间实现更好的平衡（如图 1 和图 2 所示）。

2 Related Work

设计一个同时具有快速推理速度和高性能的轻量级神经架构是一项挑战 [16,41,13,40,35]。 SqueezeNet [16] 提出了三种设计紧凑模型的策略，即用 1×1 过滤器替换 3×3 过滤器，将输入通道的数量减少到 3x3 过滤器，以及在网络后期进行下采样以保持大特征映射。这些原则是有建设性的，尤其是 1×1 卷积的使用。 MobileNetV1 [13] 用 1×1 内核和深度可分离卷积替换了几乎所有 3×3 滤波器，这大大降低了计算成本。 MobileNetV2[28] 进一步将残差连接引入到轻量级模型中，并构建了一个倒置的残差结构，其中块的中间层的通道数多于其输入和输出。为了保持表示能力，去除了一部分非线性函数。MobileNeXt [44] 重新思考倒置瓶颈的必要性，并声称经典的瓶颈结构也可以实现高性能。考虑到 1×1 卷积占计算成本的很大一部分，ShuffleNet [42] 将其替换为组卷积。channel shuffle操作有助于信息在不同组之间流动。通过调查影响实际运行速度的因素，ShufleNetV2 [22] 提出了一个硬件友好的新块。通过利用该特征的冗余性，GhostNet [8] 用廉价操作替换了 1×1 卷积中的半个通道。到目前为止，GhostNet 一直是 SOTA 轻量级模型，在准确性和速度之间取得了很好的权衡。

除了手动设计之外，还有一系列方法试图寻找一种轻量级的架构。例如，FBNet [39] 设计了一种硬件感知搜索策略，可以直接在特定硬件上找到准确性和速度之间的良好权衡。基于倒置残差瓶颈，MnasNet [31]、MobileNetV3 [12] 搜索模型宽度、模型深度、卷积滤波器大小等架构参数。虽然基于 NAS 的方法实现了高性能，但它们的成功是基于良好的 -设计的搜索空间和建筑单元。可以结合自动搜索和手动设计来找到更好的架构。

3 Preliminary

3.1 A Brief Review of GhostNet

GhostNet [8] 是 SOTA 轻量级模型，专为在移动设备上进行高效推理而设计。它的主要组成部分是 Ghost 模块，它可以通过从廉价的操作中生成更多的特征图来代替原来的卷积。给定具有高度 H、宽度 W 和通道数 C 的输入特征 X ∈ R ^H×W ×C^，典型的 Ghost 模块可以用两步代替标准卷积。首先，使用 1×1 卷积生成内在特征，即

其中*表示卷积运算。 F 1×1 是逐点卷积，Y ∈ R^H×W ×Cout^ 是内在特征，其尺寸通常小于原始输出特征，即 C’ out < C out 。然后使用廉价操作（例如，深度卷积）基于固有特征生成更多特征。特征的两个部分沿着通道维度连接，即，

其中 F dp 是深度卷积滤波器，Y ∈ R ^H×W ×Cout^ 是输出特征。虽然 Ghost 模块可以显着降低计算成本，但表示能力不可避免地被削弱了。空间像素之间的关系对于准确识别至关重要。而在 GhostNet 中，空间信息仅由一半特征的廉价操作（通常由 3×3 深度卷积实现）捕获。其余特征仅由 1×1 逐点卷积产生，不与其他像素进行任何交互。捕获空间信息的能力较弱可能会阻止性能进一步提高。

GhostNet 的一个块是通过堆叠两个 Ghost 模块构建的（如图 4(a) 所示）。与MobileNetV2 [28] 类似，它也是一个倒置瓶颈，即第一个 Ghost 模块充当扩展层以增加输出通道的数量，第二个 Ghost 模块减少通道的数量以匹配快捷路径。

3.2 Revisit Attention for Mobile Architecture

源于NLP领域[36]，基于注意力的模型最近被引入计算机视觉 [6, 9, 34, 7]。例如，ViT [6] 使用由自注意力模块和 MLP 模块堆叠的标准transformer模型。 Wang 等人将自注意力操作插入卷积神经网络以捕获非局部信息 [37]。典型的注意力模块通常具有二次复杂度 w.r.t。特征的大小，在目标检测和语义分割等下游任务中无法扩展到高分辨率图像。

降低注意力复杂度的主流策略是将图像拆分为多个窗口，并在窗口内或跨窗口实现注意力操作。例如，Swin Transformer [21]将原始特征拆分为多个不重叠的窗口，并在局部窗口内计算自注意力。 MobileViT [23] 还将特征展开为非重叠的补丁，并计算这些补丁之间的注意力。对于CNN中的二维特征图，实现特征分割和注意力计算涉及大量的张量重塑和转置操作。其理论复杂性可以忽略不计。在具有高复杂度的大型模型（例如，具有数十亿次 FLOP 的 Swin-B [21]）中，这些操作仅占用总推理时间的一小部分。而对于轻量级模型，其部署延迟不容忽视。

为了直观理解，我们为 GhostNet 模型配备了 MobileViT [23] 中使用的自注意力，并使用 TFLite 工具测量了华为 P30（麒麟 980 CPU）上的延迟。我们使用 ImageNet 的标准输入分辨率，即 224 × 224，结果如表 1 所示。注意力机制只增加了大约 20% 的理论FLOP，但在移动设备上需要 2 倍的推理时间。理论复杂度与实际复杂度的巨大差异表明，有必要设计一种硬件友好的注意力机制，以便在移动设备上快速实现。

4 Approach

4.1 DFC Attention for Mobile Architecture

在本节中，我们将讨论如何为移动 CNN 设计注意力模块。期望的注意力应该具有以下属性：
• 长距离。捕获远程空间信息以提高表示能力至关重要，因为轻量级 CNN（例如，MobileNet [13]、GhostNet [8]）通常采用小型卷积滤波器（例如，1×1 卷积)以节省计算成本。
• 部署高效。注意模块应该非常有效，以避免减慢推理速度。具有高 FLOP 或硬件不友好操作的昂贵转换是出乎意料的。
• 概念简单。为了保持模型对不同任务的泛化，注意力模块应该在概念上简单，设计精巧。

尽管自注意力操作 [6、24、21] 可以很好地模拟远程依赖，但它们的部署效率不高，如上一节所述。与它们相比，具有固定权重的全连接 (FC) 层更简单、更容易实现，也可用于生成具有全局感受野的注意力图。详细的计算过程如下所示。

其中 · 是逐元素乘法，F 是 FC 层中的可学习权重，A = {a 11 , a 12 , · · · , a HW }是生成的注意力图。等式 3 可以通过将所有标记与可学习的权重聚合在一起来捕获全局信息，这也比典型的自注意力 [36] 简单得多。然而，它的计算过程仍然需要二次复杂度 w.r.t。特征的大小（即 O(H 2 W 2 )) 2 ，这在实际场景中是不可接受的，尤其是当输入图像具有高分辨率时。比如GhostNet的第4层有一个feature map具有 3136 (56 × 56) 个标记，这导致计算注意力图的复杂性过高。实际上，CNN 中的特征图通常是低秩的 c[o3m0,p1le7x]，没有必要将不同空间位置的所有输入和输出标记密集连接起来。该特征的 2D 形状自然提供了减少 FC 层计算的视角，即分解 Eq。
层和聚合特征分别沿水平和垂直方向。它可以表述为：

其中 FH 和 FW 是变换权重。以原始特征Z为输入，Eq.4和等式5依次应用于特征，分别捕获沿两个方向的长程依赖性。我们将此操作称为解耦全连接(DFC) 注意力，其信息流如 dFuibguthreis3oomplexity 所示。由于水平和垂直变换的解耦，注意力模块的计算复杂度可以降低到 nOdv(Hert2iWca + aHnsWfo2rm)。在full attentiont(ioEnqa.InD a.l3c)oDFC中，一个正方形区域内的所有patch直接参与focused patch的计算。在 DFC attention 中，一个 patch 由垂直/水平线上的 patch 直接聚合，而其他 patch参与垂直/水平线上这些 patch 的生成，与 focused token 有间接关系。因此，一个补丁的计算也涉及方形区域中的所有补丁。

等式4和等式5表示 DFC 注意力的一般公式，它分别沿水平和垂直方向聚合像素。通过共享部分变换权重，可以方便地用卷积实现，省去了影响实际推理速度的耗时的张量重塑和转置操作。为了处理具有不同分辨率的输入图像，滤波器的大小可以与特征图的大小解耦，即，将内核大小为 1×KH 和 KW×1 的两个深度卷积顺序应用于输入特征。当用卷积实现时，DFC attention 的理论复杂度表示为 O(KHWH + KW HW)W 这种策略得到了 TFLite和 ONNX 等工具的很好支持，可以在移动设备上进行快速推理。

4.2 GhosetNet V2

在本节中，我们使用 DFC 注意力来提高轻量级模型的表示能力，然后介绍新的视觉骨干网GhostNetV2。
**Enhancing Ghost module.**正如 3.1 中所讨论的，Ghost 模块中只有一半的特征（方程 1 和 2）与其他像素相互作用，这会损害其捕获空间信息的能力。因此，我们使用 DFC 注意力来增强 Ghost 模块的输出特征 Y，以捕获不同空间像素之间的远程依赖性。
输入特征 X ∈ R^H×W ×C^ 被送到两个分支，即一个是 Ghost 模块产生输出特征 Y（方程 1 和 2），另一个是 DFC 模块产生注意力图 A（方程. 4 和 5）。回想一下，在典型的自注意力 [36] 中，线性变换层用于将输入特征转换为查询和键，用于计算注意力图。同样，我们也实现了一个1×1的卷积，将模块的输入X转换为DFC的输入Z。模块的最终输出O∈RH×W×C是两个分支输出的乘积，即，

其中 · 是逐元素乘法，Sigmoid 是将注意力图 A 归一化到范围 (0, 1) 的缩放函数。

信息聚合过程如图5所示。在相同的输入下，Ghost模块和DFC attention是两个平行的分支，从不同的角度提取信息。输出是他们的元素乘积，其中包含来自 Ghost 模块的特征和DFC 注意力模块的注意力的信息。每个注意力值的计算涉及大范围内的补丁，以便输出特征可以包含来自这些补丁的信息。

**Feature downsampling.**作为 Ghost module（等式 1 和 2）是一种非常有效的操作，直接将 DFC 注意力与其并行会引入额外的计算成本。因此，我们通过水平和垂直向下采样来减小特征的大小，这样 DFC 注意力中的所有操作都可以在较小的特征上进行。默认情况下，宽度和高度都缩放到其原始长度的一半，这减少了 DFC 注意力的 75% FLOP。然后将生成的特征图上采样到原始大小以匹配Ghost 分支中特征的大小。我们天真地分别使用平均池和双线性插值进行下采样和上采样。注意到直接实现 sigmoid（或硬 sigmoid）函数会导致更长的延迟，我们还在下采样特征上部署 sigmoid 函数以加速实际推理。尽管注意力图的值可能不会严格限制在 (0,1)范围内，但我们根据经验发现它对最终性能的影响可以忽略不计。

GhostV2 bottleneck. GhostNet 采用包含两个 Ghost 模块的倒置残差瓶颈，其中第一个模块产生具有更多通道的扩展特征，而第二个模块减少通道数量以获得输出特征。这种倒置的瓶颈自然地解耦了模型的"表现力"和"容量"[28]。前者由扩展特征衡量，而后者由块的输入/输出域反映。原始的 Ghost 模块通过廉价操作生成部分特征，这既损害了表达能力，也损害了容量。通过研究在扩展特征或输出特征上配备 DFC 注意力的性能差异（第 5.4 节中的表 8），我们发现增强"表现力"更为有效。因此，我们只将扩展特征与 DFC 注意力相乘。

图 4(b) 显示了 GhostV2 瓶颈图。 DFC 注意力分支与第一个 Ghost 模块并行，以增强扩展功能。然后将增强的特征发送到第二个 Ghost 模块以生成输出特征。它捕捉了不同空间位置像素之间的长程依赖性，增强了模型的表现力。
在这里插入图片
图 4：GhostNetV1 和 GhostNetV2 中的块图。 Ghost block 是一个包含两个 Ghost 模块的倒置残差瓶颈，其中 DFC attention 增强扩展特征以提高表达能力。

5 Experiments

在本节中，我们根据经验研究提出的 GhostNetV2 模型。我们使用大规模 ImageNet 数据集 [5]对图像分类任务进行实验。为了验证其泛化性，我们使用 GhostNetV2 作为主干并将其嵌入到轻量级目标检测方案 YOLOV3 [26] 中。在 MS COCO 数据集 [20] 上比较具有不同主干的模型。最后，我们进行了广泛的消融实验以更好地理解 GhostNetV2。实际延迟是使用 TFLite 工具在华为P30（麒麟 980 CPU）上测得的。

5.1 Image Classification on ImageNet

**Setting.**分类实验是在基准 ImageNet (ILSVRC 2012) 数据集上进行的，该数据集包含来自 1000 个类别的 1.28M 训练图像和 50K 验证图像。我们遵循 [8] 中的训练设置，并在 ImageNet 数据集上报告单裁剪结果。所有实验均使用 PyTorch [25] 和 MindSpore [15] 进行。
**Results.**不同模型在 ImageNet 上的性能比较如表 2、图 1 和图 2 所示。选择了几个轻量级模型作为竞争方法。 GhostNet [8]、MobileNetV2 [28]、MobileNetV3 [12] 和 ShuffleNet [42] 是广泛使用的具有 SOTA 性能的轻量级 CNN 模型。通过结合 CNN 和 Transformer，MobileViT [24] 是最近提出的新主干。与它们相比，GhostNetV2 以更低的计算成本实现了更高的性能。例如，GhostNetV2 仅用 167 次 FLOPs 就达到了 75.3% 的 top-1 准确率，这明显优于具有相似计算成本（167M FLOPs）的 GhostNet V1 (74.5%)。

**Practical Inference Speed.**考虑到轻量级模型是为移动应用程序设计的，我们使用 TFLite 工具 [4] 在基于 arm 的手机上实际测量了不同模型的推理延迟。由于 DFC 注意力的部署效率，GhostNetV2 在准确性和实际速度之间也取得了良好的平衡。例如，在推理延迟相似（例如 37 毫秒）的情况下，GhostNetV2 达到了 75.3% 的 top-1 准确率，这显然是 GhostNetV1 的 74.5% top-1 准确率。

5.2 Object Detection on COCO

环境。为了验证 GhostNetV2 的泛化性，我们进一步对目标检测任务进行了实验。实验在 MSCOCO 2017 数据集上进行，由 118k 训练图像和 5k 验证图像组成。我们将不同的主干嵌入到广泛使用的检测头 YOLOv3 [26] 中，并遵循 MMDetection 3 提供的默认训练策略。具体来说，基于 ImageNet 上的预训练权重，使用 SGD 优化器对模型进行了 30 个 epoch 的微调。batchsize 设置为 192，初始学习设置为 0.003。实验以 320×320 的输入分辨率进行。

结果。表 3 将提出的 GhostNetV2 模型与 GhostNet V1 进行了比较。在不同的输入分辨率下，GhostNetV2 比 GhostNet V1 表现出明显的优势。例如，使用类似的计算成本（即 340M FLOPs和 320 × 320 输入分辨率），GhostNetV2 实现了 22.3% mAP，将 GhostNet V1 抑制了 0.5 mAP。我们得出结论，捕获远程依赖对于下游任务也至关重要，所提出的 DFC 注意力可以有效地赋予Ghost 模块一个大的感受野，然后构建一个更强大和更高效的块。

5.3 Semantic Segmentation on ADE20K

我们在 ADE20K [43] 上进行语义分割实验，其中包含 20k 训练、2k 验证和 3k 测试图像，具有 150 个语义类别。我们使用 DeepLabV3 [2] 模型作为分割头，并遵循 MMSegmentation4 的默认训练设置。根据 ImageNet 上的预训练权重，模型针对 160000 次迭代进行了微调，裁剪尺寸为 512 × 512。表 5 显示了不同主干的结果。在语义任务中，GhostNetV2 的性能也明显高于 GhostNetV1，这说明了 GhostNetV2 在不同任务上的优势。

5.4 Ablation Studies

在本节中，我们进行了大量实验来研究 GhostNetV2 中每个组件的影响。实验是在 ImageNet上使用 GhostNetV2 1× 进行的。
与其他模型进行实验。作为一个通用模块，DFC 注意力也可以嵌入到其他架构中以提高它们的性能。具有不同注意力模块的MobileNetV2 的结果如表 4 所示。SE [14] 和 CBAM [38] 是两个广泛使用的注意力模块，CA [11] 是最近提出的 SOTA 方法。所提出的 DFC 注意力比这些现有方法具有更高的性能。例如，所提出的 DFC 注意力将 MobileNetV2 的 top-1 精度提高了2.4%，这大大抑制了 CA (1.5%)。

The impact of kernel size in DFC attention.我们分裂了GhostNetV2 架构按特征大小分为 3 个阶段，并应用不同内核大小的 DFC 注意力（表 6）。 1 × 3 和 3 × 1 的内核大小无法很好地捕获长程依赖性，这导致性能最差（即74.8%）。增加内核大小以捕获更长范围的信息可以显着提高性能。

The location for implementing DFC attention.实施 DFC 注意力的位置。 GhostNetV2模型可以按特征大小分为 4 个阶段，我们根据经验研究实施位置如何影响最终性能。结果如表 7 所示，从经验上表明，在任何阶段实施 DFC 注意力都可以提高性能。彻底调整或搜索合适的位置有可能进一步改善准确性和计算成本之间的权衡，这超出了本文的范围。默认情况下，我们在所有层上部署 DFC注意力。

The impact of scaling function. 对于注意力模型，需要将特征图缩放到范围（0,1），这样可以稳定训练过程。尽管理论上的复杂性可以忽略不计，但这些按元素的操作仍然会产生额外的延迟。表 9 调查了缩放函数如何影响最终性能和延迟。虽然 sigmoid 和 hard sigmoid 函数带来了明显的性能提升，但直接在大型特征图上实现它们会导致较长的延迟。

在上采样之前实现它们效率更高，但精度相似。默认情况下，我们使用 sigmoid 函数并将其放在上采样操作之前。

**Enhancing expressiveness or capacity.**我们在两个 Ghost 模块上实现了 DFC 注意力，并在表 8 中显示了结果。如第 4.2 节所述，前者增强了扩展特征（表现力），而后者提高了块的容量。在计算成本相似的情况下，增强扩展特征带来 1.4% 的 top-1 精度提升，这比增强输出特征要高得多。虽然增强这两个特征可以进一步提高性能，但计算成本也相应增加。默认情况下，我们只增强逆残差瓶颈中的扩展特征。

**The resizing functions for up-sampling and down-sampling.**多个函数可以进行上采样和下采样操作，我们研究了几个广泛使用的函数，即平均池化、最大池化、用于下采样的双线性插值以及用于上采样的双线性、双三次插值。采样（表 10）。 GhostNetV2 的性能对于调整大小函数的选择是稳健的，即所有这些方法在 ImageNet 中都达到了相似的精度。它们的区别主要在于在移动设备上的实际部署效率。 Maxing pooling 比 average pooling 稍微更有效（37.5 ms vs.38.4 ms），双线性插值比双三次插值快（37.5 ms vs.39.9 ms）。因此，我们默认选择最大池化进行下采样，默认选择双线性插值进行上采样。

解耦注意力和全注意力的可视化。我们将通过堆叠垂直和水平注意力产生的解耦注意力可视化，并将其与全注意力进行比较。在低层，解耦注意力显示出一些十字形模式，表明来自垂直/水平线的斑块参与更多。随着深度的增加，attention map 的模式会扩散并变得更类似于 full attention。

6 Conclusion

本文提出了一种硬件友好的 DFC 注意力，并为移动应用程序提出了一种新的 GhostNetV2架构。 DFC attention 可以捕获远程空间位置中像素之间的依赖关系，这显着增强了轻量级模型的表达能力。它将 FC 层分解为水平 FC 和垂直 FC，这两个方向分别具有较大的感受野。配备这种计算高效且部署简单的模块，GhostNetV2 可以在准确性和速度之间实现更好的权衡。在基准数据集（例如 ImageNet、MS COCO）上进行的大量实验验证了GhostNetV2 的优越性。

参考文献

m0_60534571

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
GhostNetV2（2022）（全文翻译）

轻量级卷积神经网络 (CNN) 专为推理速度更快的移动设备上的应用而设计。卷积运算只能捕获窗口区域的局部信息，这阻碍了性能的进一步提高。将self-attention引入卷积可以很好地捕捉全局信息，但会在很大程度上阻碍实际速度。在本文中，我们提出了一种硬件友好的注意力机制（称为 DFC 注意力），然后提出了一种用于移动应用程序的新 GhostNetV2 架构。所提出的DFC 注意力是基于全连接层构建的，它不仅可以在普通硬件上快速执行，还可以捕获远程像素之间的依赖关系。
复制链接

扫一扫