深入浅出之Focus模块(YOLO)

Focus网络结构‌是一种在目标检测任务中使用的网络结构,特别是在YOLOv5YOLOX等目标检测模型中发挥了重要作用。Focus网络结构的核心操作是在一张图片中每隔一个像素取一个值,这样操作后获得了四个独立的特征层,然后将这四个独立的特征层进行堆叠。通过这种方式,宽高信息被集中到了通道信息中,使得输入通道扩充了四倍,拼接起来的特征层相对于原先的三通道变成了十二个通道。这种结构的设计旨在降低计算复杂度,同时保留重要的空间信息,以便于后续的特征提取和目标检测。

具体来说,Focus网络结构在实现上,通过将图像分成四块,分别对应原始图像的行和列上间隔取像素,然后将这四个独立的特征层进行堆叠。这种操作破坏了相邻像素间的位置关系,但通过增加通道数的方式,使得网络能够学习到更加丰富的空间特征。在YOLOv5中,这种结构被用于backbone部分,与CSP结构SPP结构等一起,构成了模型的基础架构。此外,YOLOX中也采用了类似的Focus网络结构,并结合其他技术如解耦头Mosaic数据增强SimOTA标签匹配策略等,进一步提升了模型的性能。

总的来说,Focus网络结构是一种有效的降低计算复杂度的技术,通过将空间信息转换为通道信息的方式,提高了目标检测模型的效率和准确性。它在YOLO系列模型中的应用,为实时目标检测任务提供了强大的支持‌。

在YOLOv5中,Focus结构是一种特殊的卷积操作层,主要用于对输入特征图进行下采样和特征提取,同时减少信息损失。以下是对Focus结构的具体分析:

一、作用与特点

  1. 下采样:Focus层通过切片操作实现特征图的下采样,将高分辨率的输入特征图转换为低分辨率但通道数增加的特征图,从而减少计算量。

  2. 特征提取:通过切片和拼接操作,Focus层将空间信息转换到通道维度上,再通过卷积操作进一步提取特征,有助于模型捕捉图像中的关键信息。

  3. 减少信息损失:与传统的池化操作相比,Focus层的切片和拼接方式能够在一定程度上减少信息的损失,保留更多的图像细节,这对于提高模型的检测精度具有重要意义。

  4. 提高模型性能:Focus层的使用能够显著提高YOLOv5模型的检测性能,特别是在小目标检测方面。通过优化特征提取过程,Focus层使得模型更加关注小目标的特征,从而提高了检测的精度和召回率。

二、工作原理

Focus层的工作原理主要包括以下几个步骤:

  1. 切片操作:Focus层首先对输入特征图进行切片操作。具体来说,它将输入特征图在宽度和高度方向上每隔一个像素进行采样,从而得到四张分辨率减半的特征图。这四张特征图在通道数上保持不变,但空间尺寸(宽高)减半。

  2. 通道拼接:接下来,Focus层将这四张切片后的特征图在通道维度上进行拼接。由于每张特征图的通道数没有改变,拼接后的特征图在通道数上变为原来的四倍,而空间尺寸(宽高)仍然减半。

  3. 卷积操作:最后,Focus层对拼接后的特征图进行一次卷积操作,通过卷积核来进一步提取特征,并可以根据需要将输出通道数调整为所需的数量。这一卷积操作通常使用3x3的卷积核,并伴随批归一化(Batch Normalization)和激活函数(如SiLU)等处理。

四、网络结构

4.1、深度学习有哪些下采样的方式

YOLOv5中提到了一种Focus层,高大上的名称背后感觉就是特殊的下采样而已。不过原理逻辑虽然简单,但也体现了作者的创造力。

提到下采样,在这里小编列举一下深度学习中都接触过哪些下采样方式:

最早接触到的应该是池化操作,如下图所示:

图片

包括平均池化和最大池化两种,平均池化有种平滑滤波的味道,通过求取滑窗内的元素平均值作为当前特征点,根据滑窗的尺寸控制下采样的力度,尺寸越大采样率越高,但是边缘信息损失越大。最大池化类似锐化滤波,突出滑窗内的细节点。但是不论哪种池化操作,都是以牺牲部分信息为代价,换取数据量的减少。

步长大于1的卷积也可以实现池化功能,如下图所示:

图片

卷积操作可以获得图像像素之间的特征相关性,采用步长大于1的跳跃可以实现数据降维,但是跳跃采样造成的相邻像素点特征丢失是否会影响最终效果。

池化作为一种强先验操作人为设定了降采样规则,而卷积层是通过参数自己学习出降采样算子,具体对比可以参考这篇文章:Striving for simplicity: The All Convolutional Net.

4.2 下采样在神经网络中的作用

下采样在神经网络中主要是为了减少参数量达到降维的作用,同时还能增加局部感受野。

但是下采样的过程不可避免的伴随信息丢失,尤其是在分割任务要经历下采样编码和上采样解码的过程,那么如何在不损失数据信息的情况下,增大深层特征图的感受野呢?

18年的时候出了个空洞卷积的玩意,如下图所示,根据打洞的间距把卷积核进行膨胀,在没有增加参数量的情况下,增大了感受野,从某种角度来看也算是一种局部下采样的过程。

图片

图a,b,c均是3×3尺寸卷积核,图(a)的空洞为0,每个核算子之间紧挨着没有间隔,等价于普通的卷积,每次运算学习9个参数,感受野即3×3;图(b)的空洞为1,同样学习9个参数,但是每个算子之间空一格,感受野即7×7;图(c)的空洞为3,仍然学习9个参数,但是每个算子之间空三格,感受野即15×15。

如何计算空洞卷积的感受野呢?

这里给出一个常规的计算公式:

size=(dilate_rate-1)  ×(kernel_size-1)+  kernel_size

4.3 YOLOv2之PassThrough层

上面我们聊了一些下采样的方法和优缺点,但是在目标检测网络中还有两种特殊的下采样,PassThrough首次出现在YOLOv2网络,将相邻的特征堆积在不同的通道中,目的是将大尺度特征图下采样后与小尺度特征图进行融合,从而增加小目标检测的精确度。如下图所示:

图片

小编对这张图和Focus的图对比了半天,简直一模一样,暂时没发现这两个层有何区别?通过Tensorflow提供的API接口tf.space_to_depth测试了下Tensor的输出,确实是隔行采样再拼接的形式。有小伙伴知道差异的欢迎+v指导。

4.4 YOLOv5之Focus层

Focus层非常类似PassThrough层,同样是采用切片操作把高分辨率的图片/特征图拆分成多个低分辨率的图片/特征图,如下图所示:隔行采样+拼接

图片

将4×4×3的Tensor通过间隔采样拆分成4份,在通道维度上进行拼接生成2×2×12的Tensor。Focus层将w-h平面上的信息转换到通道维度,再通过卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失。

从细节的角度此方式确实比stride为2的卷积或者池化要精致,用在PC端建模可能有一些精度提升。但是如果用在工程上,考虑到大多数芯片厂商未必提供Focus层或者自定义接口,从部署的角度可以牺牲Focus带来的0.1%的提升更换成Conv或Pool层。

原始的640 × 640 × 3的图像输入Focus结构,采用切片(slice)操作,先 变成320 × 320 × 12的特征图,拼接(Concat)后,再经过一次卷积(CBL(后 期改为SiLU,即为CBS))操作,最终变成320 × 320 × 64的特征图。 

 Focus层将w-h平面上的信息转换到通道维度,再通过3*3卷积的方式提取 不同特征。采用这种方式可以减少下采样带来的信息损失 。

五、代码实现(示例)

以下是一个基于PyTorch的Focus层实现代码示例:

class Focus(nn.Module):
    def __init__(self, in_channels, out_channels, ksize=1, stride=1, act="silu"):
        super(Focus, self).__init__()
        self.conv = BaseConv(in_channels * 4, out_channels, ksize, stride, act=act)
 
    def forward(self, x):
        # 图像被分成四块
        # 行和列均按2叠加  对应图片中1
        patch_top_left  =  x[...,   ::2,   ::2]
        # 对应图片中3
        patch_bot_left  =  x[...,  1::2,   ::2]
        # 对应图片中2
        patch_top_right =  x[...,   ::2,  1::2]
        # 对应图片中4
        patch_bot_right =  x[...,  1::2,  1::2]
        x = torch.cat((patch_top_left, patch_bot_left, patch_top_right, patch_bot_right), dim=1)
        return self.conv(x)

请注意,上面的代码示例为了简化而省略了批归一化和激活函数,实际使用中应包含这些操作以完整实现Focus层的功能。此外,由于直接切片操作在PyTorch中的表示可能不够直观,上述代码示例采用了reshape和permute来模拟切片和拼接的过程。在实际应用中,您可能需要根据具体的PyTorch版本和配置来调整代码。

六、注意事项

虽然Focus层在目标检测等任务中展现出了良好的性能,但在实际应用中仍需要注意以下几点:

  1. 模型部署:由于Focus层可能不是所有深度学习框架或硬件都支持的标准层,因此在模型部署时需要考虑兼容性问题。
  2. 参数调整:Focus层的参数(如切片方式、拼接后的通道数等)需要根据具体任务和数据集进行调整,以达到最佳性能。
  3. 计算量:虽然Focus层不会显著增加后续卷积层的计算量,但在整个模型中仍需考虑其带来的额外计算成本。

总的来说,Focus结构是YOLOv5中一个非常重要的组成部分,它通过优化特征提取过程,显著提高了模型的检测性能。

参考:

  1. 深度学习之Focus层
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浩瀚之水_csdn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值