YOLO系列笔记（十七）—— YOLOv5各层详细介绍（附python代码）：Focus，Conv，C3，SPPF，特征金字塔及多尺度训练

本文链接：https://blog.csdn.net/XISHI_TIANLAN/article/details/139051857

YOLOv5各层详细介绍

前言
一、 Focus层
二、Conv层
三、C3层
四、SPPF层
五、特征金字塔
六、多尺度训练

前言

在目标检测任务中，模型的结构和各个模块的设计对检测性能有着至关重要的影响。本文将详细介绍YOLOv5中的一些关键模块和技术，包括Focus层、卷积层（Conv）、C3层、SPPF层、特征金字塔（Feature Pyramid）以及多尺度训练（Multi-scale Training）。这些模块和技术共同构成了YOLOv5强大的目标检测能力。

如果觉得该笔记对您有用的话，可以点个小小的赞，或者点赞收藏关注一键三连ヾ(◍’౪`◍) ~ 谢谢！！

一、 Focus层

Focus层是YOLOv5模型中引入的一种创新层，用于在不丢失信息的情况下增加计算效率。它通过将空间维度的信息重新排列到通道维度，从而提高模型的计算效率。

1.1 什么是Focus层？

Focus层的核心思想是将输入图像的空间信息（即宽度和高度）重新排列成更多的通道信息。具体来说，它通过将输入图像中的每个2x2块像素提取出来，并将其组合成新的通道（如下图）。这样做可以在减少空间尺寸的同时保持输入图像的信息。
在这里插入图片描述

1.2 详细操作步骤

假设输入图像的尺寸为 $\times W \times C )$ ，其中 H 是高度， W 是宽度， C 是通道数。Focus层的操作步骤如下：

划分2x2块：
- 将输入图像划分为多个2x2的块。
重排像素到通道：
- 每个2x2的块包含4个像素，将这4个像素重新排列到新的通道上。
- 这样，新的通道数将是原始通道数的4倍，而空间维度（宽度和高度）将减半。

通过这种操作，输入图像的信息被重新排列为较少的空间维度和较多的通道维度。

1.3 公式表达

假设输入图像的尺寸为 $\times W \times C )$ ，经过Focus层后，输出图像的尺寸将变为 $\frac{H}{2} \times \frac{W}{2} \times 4C )$ 。

1.4 Python实现

下面是用Python和PyTorch实现Focus层的示例：

import torch
import torch.nn as nn

class Focus(nn.Module):
    def __init__(self):
        super(Focus, self).__init__()
    
    def forward(self, x):
        # x: (batch_size, channels, height, width)
        return torch.cat([x[..., ::2, ::2],  # 每隔一个像素取值
                          x[..., 1::2, ::2],  # 从第二个像素开始，每隔一个像素取值
                          x[..., ::2, 1::2],  # 每隔一个像素取值，从第二列开始
                          x[..., 1::2, 1::2]],  # 从第二个像素和第二列开始，每隔一个像素取值
                          dim=1)  # 在通道维度上拼接

# 测试Focus层
x = torch.randn(1, 3, 640, 640)  # 假设输入为640x640的RGB图像
focus = Focus()
y = focus(x)
print(y.shape)  # 输出形状为(1, 12, 320, 320)，即通道数变为原来的4倍，空间维度减半

1.5 优势分析

提高计算效率：
- 通过减少空间维度（从640x640到320x320），减少了后续卷积层的计算量。
- 增加通道数使得每个卷积核能够捕获更多的信息。
不丢失信息：
- 重新排列操作只是改变了数据的排列方式，并没有丢失任何信息。
- 原始图像的所有像素值都被保留下来，只是分布在不同的通道上。
实现有效的下采样：
- Focus层在下采样的同时保留了更多的原始信息，这比直接使用卷积下采样（如stride为2的卷积）更有效。

1.6 总结

Focus层通过将空间维度的信息重新排列到通道维度，达到了在不丢失信息的情况下提高计算效率的目的。这种方法在YOLOv5中被有效地应用，从而提高了模型的性能和效率。

二、Conv层

卷积层（Convolutional Layer, 简称 Conv 层）是卷积神经网络（Convolutional Neural Network, CNN）的基本构建模块之一。它通过在输入图像上应用卷积操作来提取特征。以下是对卷积层的详细解释，包括其目的、工作原理、参数和应用。

2.1 目的

卷积层的主要目的是通过学习多个滤波器（或称为卷积核）来提取输入图像的特征。滤波器可以识别不同层次的特征，例如边缘、纹理、形状和对象。

2.2 工作原理

卷积操作是指用一个滤波器在输入图像上滑动（或卷积），计算滤波器与图像局部区域的点积，生成特征图（Feature Map）。这个过程通常包括以下步骤：

滤波器初始化：
- 滤波器是一个小矩阵，通常为3x3、5x5或7x7。
- 滤波器的参数（权重）在训练过程中通过反向传播算法进行优化。
滑动滤波器：
- 滤波器在输入图像上以一定的步幅（Stride）滑动。
- 每次滑动时，计算滤波器与当前覆盖区域的点积，得到一个值作为特征图上的一个像素。
生成特征图：
- 滤波器在整个输入图像上滑动完成后，生成一个特征图。
- 使用多个滤波器可以生成多个特征图，每个特征图对应一个滤波器。