Focus网络结构是一种在目标检测任务中使用的网络结构,特别是在YOLOv5和YOLOX等目标检测模型中发挥了重要作用。Focus网络结构的核心操作是在一张图片中每隔一个像素取一个值,这样操作后获得了四个独立的特征层,然后将这四个独立的特征层进行堆叠。通过这种方式,宽高信息被集中到了通道信息中,使得输入通道扩充了四倍,拼接起来的特征层相对于原先的三通道变成了十二个通道。这种结构的设计旨在降低计算复杂度,同时保留重要的空间信息,以便于后续的特征提取和目标检测。
具体来说,Focus网络结构在实现上,通过将图像分成四块,分别对应原始图像的行和列上间隔取像素,然后将这四个独立的特征层进行堆叠。这种操作破坏了相邻像素间的位置关系,但通过增加通道数的方式,使得网络能够学习到更加丰富的空间特征。在YOLOv5中,这种结构被用于backbone部分,与CSP结构、SPP结构等一起,构成了模型的基础架构。此外,YOLOX中也采用了类似的Focus网络结构,并结合其他技术如解耦头、Mosaic数据增强、SimOTA标签匹配策略等,进一步提升了模型的性能。
总的来说,Focus网络结构是一种有效的降低计算复杂度的技术,通过将空间信息转换为通道信息的方式,提高了目标检测模型的效率和准确性。它在YOLO系列模型中的应用,为实时目标检测任务提供了强大的支持。
在YOLOv5中,Focus结构是一种特殊的卷积操作层,主要用于对输入特征图进行下采样和特征提取,同时减少信息损失。以下是对Focus结构的具体分析:
一、作用与特点
-
下采样:Focus层通过切片操作实现特征图的下采样,将高分辨率的输入特征图转换为低分辨率但通道数增加的特征图,从而减少计算量。
-
特征提取:通过切片和拼接操作,Focus层将空间信息转换到通道维度上,再通过卷积操作进一步提取特征,有助于模型捕捉图像中的关键信息。
-
减少信息损失:与传统的池化操作相比,Focus层的切片和拼接方式能够在一定程度上减少信息的损失,保留更多的图像细节,这对于提高模型的检测精度具有重要意义。
-
提高模型性能:Focus层的使用能够显著提高YOLOv5模型的检测性能,特别是在小目标检测方面。通过优化特征提取过程,Focus层使得模型更加关注小目标的特征,从而提高了检测的精度和召回率。
二、工作原理
Focus层的工作原理主要包括以下几个步骤:
-
切片操作:Focus层首先对输入特征图进行切片操作。具体来说,它将输入特征图在宽度和高度方向上每隔一个像素进行采样,从而得到四张分辨率减半的特征图。这四张特征图在通道数上保持不变,但空间尺寸(宽高)减半。
-
通道拼接:接下来,Focus层将这四张切片后的特征图在通道维度上进行拼接。由于每张特征图的通道数没有改变,拼接后的特征图在通道数上变为原来的四倍,而空间尺寸(宽高)仍然减半。
-
卷积操作:最后,Focus层对拼接后的特征图进行一次卷积操作,通过卷积核来进一步提取特征,并可以根据需要将输出通道数调整为所需的数量。这一卷积操作通常使用3x3的卷积核,并伴随批归一化(Batch Normalization)和激活函数(如SiLU)等处理。
四、网络结构
4.1、深度学习有哪些下采样的方式
YOLOv5中提到了一种Focus层,高大上的名称背后感觉就是特殊的下采样而已。不过原理逻辑虽然简单,但也体现了作者的创造力。
提到下采样,在这里小编列举一下深度学习中都接触过哪些下采样方式:
最早接触到的应该是池化操作,如下图所示:
包括平均池化和最大池化两种,平均池化有种平滑滤波的味道,通过求取滑窗内的元素平均值作为当前特征点,根据滑窗的尺寸控制下采样的力度,尺寸越大采样率越高,但是边缘信息损失越大。最大池化类似锐化滤波,突出滑窗内的细节点。但是不论哪种池化操作,都是以牺牲部分信息为代价,换取数据量的减少。
步长大于1的卷积也可以实现池化功能,如下图所示:
卷积操作可以获得图像像素之间的特征相关性,采用步长大于1的跳跃可以实现数据降维,但是跳跃采样造成的相邻像素点特征丢失是否会影响最终效果。
池化作为一种强先验操作人为设定了降采样规则,而卷积层是通过参数自己学习出降采样算子,具体对比可以参考这篇文章:Striving for simplicity: The All Convolutional Net.
4.2 下采样在神经网络中的作用
下采样在神经网络中主要是为了减少参数量达到降维的作用,同时还能增加局部感受野。
但是下采样的过程不可避免的伴随信息丢失,尤其是在分割任务要经历下采样编码和上采样解码的过程,那么如何在不损失数据信息的情况下,增大深层特征图的感受野呢?
18年的时候出了个空洞卷积的玩意,如下图所示,根据打洞的间距把卷积核进行膨胀,在没有增加参数量的情况下,增大了感受野,从某种角度来看也算是一种局部下采样的过程。
图a,b,c均是3×3尺寸卷积核,图(a)的空洞为0,每个核算子之间紧挨着没有间隔,等价于普通的卷积,每次运算学习9个参数,感受野即3×3;图(b)的空洞为1,同样学习9个参数,但是每个算子之间空一格,感受野即7×7;图(c)的空洞为3,仍然学习9个参数,但是每个算子之间空三格,感受野即15×15。
如何计算空洞卷积的感受野呢?
这里给出一个常规的计算公式:
size=(dilate_rate-1) ×(kernel_size-1)+ kernel_size
4.3 YOLOv2之PassThrough层
上面我们聊了一些下采样的方法和优缺点,但是在目标检测网络中还有两种特殊的下采样,PassThrough首次出现在YOLOv2网络,将相邻的特征堆积在不同的通道中,目的是将大尺度特征图下采样后与小尺度特征图进行融合,从而增加小目标检测的精确度。如下图所示:
小编对这张图和Focus的图对比了半天,简直一模一样,暂时没发现这两个层有何区别?通过Tensorflow提供的API接口tf.space_to_depth测试了下Tensor的输出,确实是隔行采样再拼接的形式。有小伙伴知道差异的欢迎+v指导。
4.4 YOLOv5之Focus层
Focus层非常类似PassThrough层,同样是采用切片操作把高分辨率的图片/特征图拆分成多个低分辨率的图片/特征图,如下图所示:隔行采样+拼接
将4×4×3的Tensor通过间隔采样拆分成4份,在通道维度上进行拼接生成2×2×12的Tensor。Focus层将w-h平面上的信息转换到通道维度,再通过卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失。
从细节的角度此方式确实比stride为2的卷积或者池化要精致,用在PC端建模可能有一些精度提升。但是如果用在工程上,考虑到大多数芯片厂商未必提供Focus层或者自定义接口,从部署的角度可以牺牲Focus带来的0.1%的提升更换成Conv或Pool层。
原始的640 × 640 × 3的图像输入Focus结构,采用切片(slice)操作,先 变成320 × 320 × 12的特征图,拼接(Concat)后,再经过一次卷积(CBL(后 期改为SiLU,即为CBS))操作,最终变成320 × 320 × 64的特征图。
Focus层将w-h平面上的信息转换到通道维度,再通过3*3卷积的方式提取 不同特征。采用这种方式可以减少下采样带来的信息损失 。
五、代码实现(示例)
以下是一个基于PyTorch的Focus层实现代码示例:
class Focus(nn.Module):
def __init__(self, in_channels, out_channels, ksize=1, stride=1, act="silu"):
super(Focus, self).__init__()
self.conv = BaseConv(in_channels * 4, out_channels, ksize, stride, act=act)
def forward(self, x):
# 图像被分成四块
# 行和列均按2叠加 对应图片中1
patch_top_left = x[..., ::2, ::2]
# 对应图片中3
patch_bot_left = x[..., 1::2, ::2]
# 对应图片中2
patch_top_right = x[..., ::2, 1::2]
# 对应图片中4
patch_bot_right = x[..., 1::2, 1::2]
x = torch.cat((patch_top_left, patch_bot_left, patch_top_right, patch_bot_right), dim=1)
return self.conv(x)
请注意,上面的代码示例为了简化而省略了批归一化和激活函数,实际使用中应包含这些操作以完整实现Focus层的功能。此外,由于直接切片操作在PyTorch中的表示可能不够直观,上述代码示例采用了reshape和permute来模拟切片和拼接的过程。在实际应用中,您可能需要根据具体的PyTorch版本和配置来调整代码。
六、注意事项
虽然Focus层在目标检测等任务中展现出了良好的性能,但在实际应用中仍需要注意以下几点:
- 模型部署:由于Focus层可能不是所有深度学习框架或硬件都支持的标准层,因此在模型部署时需要考虑兼容性问题。
- 参数调整:Focus层的参数(如切片方式、拼接后的通道数等)需要根据具体任务和数据集进行调整,以达到最佳性能。
- 计算量:虽然Focus层不会显著增加后续卷积层的计算量,但在整个模型中仍需考虑其带来的额外计算成本。
总的来说,Focus结构是YOLOv5中一个非常重要的组成部分,它通过优化特征提取过程,显著提高了模型的检测性能。
参考: