深入浅出之Focus模块（YOLO）

浩瀚之水_csdn

已于 2025-04-07 16:30:21 修改

阅读量1.9k

点赞数 14

分类专栏： # 深度学习基础知识深度学习目标检测 # 目标检测（理论）文章标签： YOLO 目标跟踪人工智能

于 2024-09-21 09:06:36 首次发布

本文链接：https://blog.csdn.net/a8039974/article/details/142410683

版权

深度学习目标检测同时被 3 个专栏收录

350 篇文章

订阅专栏

深度学习基础知识

129 篇文章

订阅专栏

目标检测（理论）

87 篇文章

订阅专栏

‌Focus网络结构‌是一种在目标检测任务中使用的网络结构，特别是在YOLOv5和YOLOX等目标检测模型中发挥了重要作用。Focus网络结构的核心操作是在一张图片中每隔一个像素取一个值，这样操作后获得了四个独立的特征层，然后将这四个独立的特征层进行堆叠。通过这种方式，宽高信息被集中到了通道信息中，使得输入通道扩充了四倍，拼接起来的特征层相对于原先的三通道变成了十二个通道。这种结构的设计旨在降低计算复杂度，同时保留重要的空间信息，以便于后续的特征提取和目标检测。

具体来说，Focus网络结构在实现上，通过将图像分成四块，分别对应原始图像的行和列上间隔取像素，然后将这四个独立的特征层进行堆叠。这种操作破坏了相邻像素间的位置关系，但通过增加通道数的方式，使得网络能够学习到更加丰富的空间特征。在YOLOv5中，这种结构被用于backbone部分，与CSP结构、SPP结构等一起，构成了模型的基础架构。此外，YOLOX中也采用了类似的Focus网络结构，并结合其他技术如解耦头、Mosaic数据增强、SimOTA标签匹配策略等，进一步提升了模型的性能。

总的来说，Focus网络结构是一种有效的降低计算复杂度的技术，通过将空间信息转换为通道信息的方式，提高了目标检测模型的效率和准确性。它在YOLO系列模型中的应用，为实时目标检测任务提供了强大的支持‌。

在YOLOv5中，Focus结构是一种特殊的卷积操作层，主要用于对输入特征图进行下采样和特征提取，同时减少信息损失。以下是对Focus结构的具体分析：

一、作用与特点

下采样：Focus层通过切片操作实现特征图的下采样，将高分辨率的输入特征图转换为低分辨率但通道数增加的特征图，从而减少计算量。
特征提取：通过切片和拼接操作，Focus层将空间信息转换到通道维度上，再通过卷积操作进一步提取特征，有助于模型捕捉图像中的关键信息。
减少信息损失：与传统的池化操作相比，Focus层的切片和拼接方式能够在一定程度上减少信息的损失，保留更多的图像细节，这对于提高模型的检测精度具有重要意义。
提高模型性能：Focus层的使用能够显著提高YOLOv5模型的检测性能，特别是在小目标检测方面。通过优化特征提取过程，Focus层使得模型更加关注小目标的特征，从而提高了检测的精度和召回率。

二、工作原理

Focus层的工作原理主要包括以下几个步骤：

切片操作：Focus层首先对输入特征图进行切片操作。具体来说，它将输入特征图在宽度和高度方向上每隔一个像素进行采样，从而得到四张分辨率减半的特征图。这四张特征图在通道数上保持不变，但空间尺寸（宽高）减半。
通道拼接：接下来，Focus层将这四张切片后的特征图在通道维度上进行拼接。由于每张特征图的通道数没有改变，拼接后的特征图在通道数上变为原来的四倍，而空间尺寸（宽高）仍然减半。
卷积操作：最后，Focus层对拼接后的特征图进行一次卷积操作，通过卷积核来进一步提取特征，并可以根据需要将输出通道数调整为所需的数量。这一卷积操作通常使用3x3的卷积核，并伴随批归一化（Batch Normalization）和激活函数（如SiLU）等处理。

四、网络结构

4.1、深度学习有哪些下采样的方式

YOLOv5中提到了一种Focus层，高大上的名称背后感觉就是特殊的下采样而已。不过原理逻辑虽然简单，但也体现了作者的创造力。

提到下采样，在这里小编列举一下深度学习中都接触过哪些下采样方式：

最早接触到的应该是池化操作，如下图所示：

包括平均池化和最大池化两种，平均池化有种平滑滤波的味道，通过求取滑窗内的元素平均值作为当前特征点，根据滑窗的尺寸控制下采样的力度，尺寸越大采样率越高，但是边缘信息损失越大。最大池化类似锐化滤波，突出滑窗内的细节点。但是不论哪种池化操作，都是以牺牲部分信息为代价，换取数据量的减少。

步长大于1的卷积也可以实现池化功能，如下图所示：

卷积操作可以获得图像像素之间的特征相关性，采用步长大于1的跳跃可以实现数据降维，但是跳跃采样造成的相邻像素点特征丢失是否会影响最终效果。

池化作为一种强先验操作人为设定了降采样规则，而卷积层是通过参数自己学习出降采样算子，具体对比可以参考这篇文章：Striving for simplicity: The All Convolutional Net.

4.2 下采样在神经网络中的作用

下采样在神经网络中主要是为了减少参数量达到降维的作用，同时还能增加局部感受野。

但是下采样的过程不可避免的伴随信息丢失，尤其是在分割任务要经历下采样编码和上采样解码的过程，那么如何在不损失数据信息的情况下，增大深层特征图的感受野呢？

18年的时候出了个空洞卷积的玩意，如下图所示，根据打洞的间距把卷积核进行膨胀，在没有增加参数量的情况下，增大了感受野，从某种角度来看也算是一种局部下采样的过程。

图a,b,c均是3×3尺寸卷积核，图(a)的空洞为0，每个核算子之间紧挨着没有间隔，等价于普通的卷积，每次运算学习9个参数，感受野即3×3；图(b)的空洞为1，同样学习9个参数，但是每个算子之间空一格，感受野即7×7；图(c)的空洞为3，仍然学习9个参数，但是每个算子之间空三格，感受野即15×15。

如何计算空洞卷积的感受野呢？

这里给出一个常规的计算公式：

size=(dilate_rate-1) ×（kernel_size-1）+ kernel_size

4.3 YOLOv2之PassThrough层

上面我们聊了一些下采样的方法和优缺点，但是在目标检测网络中还有两种特殊的下采样，PassThrough首次出现在YOLOv2网络，将相邻的特征堆积在不同的通道中，目的是将大尺度特征图下采样后与小尺度特征图进行融合，从而增加小目标检测的精确度。如下图所示：

小编对这张图和Focus的图对比了半天，简直一模一样，暂时没发现这两个层有何区别？通过Tensorflow提供的API接口tf.space_to_depth测试了下Tensor的输出，确实是隔行采样再拼接的形式。有小伙伴知道差异的欢迎+v指导。

4.4 YOLOv5之Focus层

Focus层非常类似PassThrough层，同样是采用切片操作把高分辨率的图片/特征图拆分成多个低分辨率的图片/特征图，如下图所示：隔行采样+拼接

将4×4×3的Tensor通过间隔采样拆分成4份，在通道维度上进行拼接生成2×2×12的Tensor。Focus层将w-h平面上的信息转换到通道维度，再通过卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失。

从细节的角度此方式确实比stride为2的卷积或者池化要精致，用在PC端建模可能有一些精度提升。但是如果用在工程上，考虑到大多数芯片厂商未必提供Focus层或者自定义接口，从部署的角度可以牺牲Focus带来的0.1%的提升更换成Conv或Pool层。

原始的640 × 640 × 3的图像输入Focus结构，采用切片（slice）操作，先变成320 × 320 × 12的特征图，拼接（Concat）后，再经过一次卷积（CBL(后期改为SiLU，即为CBS)）操作，最终变成320 × 320 × 64的特征图。

Focus层将w-h平面上的信息转换到通道维度，再通过3*3卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失。

五、代码实现（示例）

以下是一个基于PyTorch的Focus层实现代码示例：

class Focus(nn.Module):
    def __init__(self, in_channels, out_channels, ksize=1, stride=1, act="silu"):
        super(Focus, self).__init__()
        self.conv = BaseConv(in_channels * 4, out_channels, ksize, stride, act=act)
 
    def forward(self, x):
        # 图像被分成四块
        # 行和列均按2叠加  对应图片中1
        patch_top_left  =  x[...,   ::2,   ::2]
        # 对应图片中3
        patch_bot_left  =  x[...,  1::2,   ::2]
        # 对应图片中2
        patch_top_right =  x[...,   ::2,  1::2]
        # 对应图片中4
        patch_bot_right =  x[...,  1::2,  1::2]
        x = torch.cat((patch_top_left, patch_bot_left, patch_top_right, patch_bot_right), dim=1)
        return self.conv(x)

请注意，上面的代码示例为了简化而省略了批归一化和激活函数，实际使用中应包含这些操作以完整实现Focus层的功能。此外，由于直接切片操作在PyTorch中的表示可能不够直观，上述代码示例采用了reshape和permute来模拟切片和拼接的过程。在实际应用中，您可能需要根据具体的PyTorch版本和配置来调整代码。