YOLOv8 改进 006：SPD-Conv 空间深度转换卷积替换 CNN 传统卷积神经网络

本文链接：https://blog.csdn.net/m0_46496775/article/details/141039526

论文题目：《No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects》

摘要：卷积神经网络（CNN）在许多计算机视觉任务，如图像分类和对象检测方面取得了巨大成功。然而，它们在处理更困难的任务时，如低分辨率图像或小物体时，性能会迅速下降。这是由于现有 CNN 常见的设计体系结构中有缺陷，即使用卷积步长和/或池化层，这导致了细粒度信息的丢失和较低效的特征表示的学习。为此，我们提出了一个名为 SPD-Conv 的新的 CNN 构建块来代替每个卷积步长和每个池化层（因此完全消除了它们）。SPD-Conv 由一个空间到深度（SPD）层和一个无卷积步长（Conv）层组成，可以应用于大多数 CNN 体系结构。我们从两个最具代表性的计算机视觉任务，即目标检测和图像分类来解释这个新设计。然后，我们将 SPD-Conv 应用于 YOLOv5 和 ResNet，创建了新的 CNN 架构，并通过经验证明，我们的方法明显优于最先进的深度学习模型，特别是在处理低分辨率图像和小物体等更困难的任务时。

论文地址：https://arxiv.org/pdf/2208.03641v1

官方源码：GitHub - LabSAINT/SPD-Conv

1. SPD-Conv 简介

卷积神经网络（CNN）在处理低分辨率图像和小物体时性能低下，这一问题根源于使用步长卷积和池化层导致的细粒度信息丢失。

SPD-Conv（空间到深度卷积）的基本原理是用于改进传统卷积神经网络（CNN）中对低分辨率图像和小物体处理的性能。它主要通过以下几个关键步骤实现：

（1）替换步长卷积和池化层：SPD-Conv 被设计用来替代传统 CNN 架构中的步长卷积层和池化层。步长卷积和池化层在处理低分辨率图像或小物体时会导致细粒度信息的丢失。

（2）空间到深度（SPD）层：一个转换层，将输入图像的空间维度转换为深度维度，从而在不丢失信息的情况下增加特征图的深度。之所以使用 SPD 层，是因为在处理低分辨率图像和小物体时，需要保留尽可能多的空间信息。SPD 层通过将空间维度的信息转换为深度维度，避免了传统步长卷积和池化操作中的信息丢失。

（3）非步长卷积层：在 SPD 转换后应用的卷积层，不使用步长，以保留细粒度信息。在 SPD 层之后应用非步长（即步长为1）卷积层，是因为非步长卷积能够在不减少特征图尺寸的情况下进行特征提取，进一步保持了图像的细粒度信息，这对于提高低分辨率图像和小物体的识别性能至关重要。

假设我们有一个低分辨率的图像，其中包含几个小的物体，我们需要对这些物体进行识别和分类。

在传统的 CNN 架构中，如果我们直接应用步长卷积和池化层，随着网络层次的加深&