关于yolov8的一些模块

lindsayshuo

已于 2024-04-13 11:27:27 修改

阅读量2k

点赞数 8

文章标签： YOLO

于 2024-02-06 14:48:45 首次发布

本文链接：https://blog.csdn.net/weixin_43269994/article/details/136056355

版权

1、c2f

对于yolov8的c2f模块，就是上一层的输出被split成了两部分，一部分不动，另一部分经过conbnsilu提取特征在拼回去，结构图如下：
在这里插入图片描述
onnx的netron图如下：
(1)c2f
(2)bottleneck

先看代码：
C2f:

class C2f(nn.Module):
    """CSP Bottleneck with 2 convolutions."""

    def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansion
        super().__init__()
        self.c = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, 2 * self.c, 1, 1)
        self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)
        self.m = nn.ModuleList(Bottleneck(self.c, self.c, shortcut, g, k=((3, 3), (3, 3)), e=1.0) for _ in range(n))

    def forward(self, x):
        """Forward pass through C2f layer."""
        y = list(self.cv1(x).chunk(2, 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))

Bottleneck:

class Bottleneck(nn.Module):
    """Standard bottleneck."""

    def __init__(self, c1, c2, shortcut=True, g=1, k=(3, 3), e=0.5):  # ch_in, ch_out, shortcut, groups, kernels, expand
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, k[0], 1)
        self.cv2 = Conv(c_, c2, k[1], 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        """'forward()' applies the YOLOv5 FPN to input data."""
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))

假设输入：

x =(1,64,640,640)
cv1: conv2d(64,64, 1x1, s=1), SiLU
cv2: conv2d(96,64, 1x1, s=1), SiLU

（1）通过 cv1：
cv1 是 Conv(64, 2 * c, 1, 1)，其中 c 是隐藏通道的数量，由 int(c2 * e) 决定，在这里 c2 是输出通道的数目（我们暫时不知道），e 是扩展系数。
如果我们按照 cv2: conv2d(96,64, 1x1, s=1)，即 c2=64 和 e=0.5 计算，那么 c 就是 int(64 * 0.5) = 32，cv1 的输出通道数会是 2 * 32 = 64 个通道。
所以 cv1 之后的输出张量形状为 (1,64,640,640)，与输入形状相同。
（2）拆分通道并创建 y 列表：
然后将输出张量在通道数上分割成两部分，每部分为 32 通道，即 y=[(1,32,640,640), (1,32,640,640)]。
（3）经过 Bottleneck：
对于 y[-1]，也就是 y 列表中的第二部分 (1,32,640,640)，通过 Bottleneck 模块。由于在 C2f 中为 Bottleneck 设置了 e=1.0，Bottleneck 内部的通道数 c_ 是等于 c2，这里它们都是 32。
Bottleneck 过程后，由于是否有shortcut依赖于 shortcut 和 c1 == c2，在这个情况下应该不存在shortcut，因此输出形状还是(1,32,640,640)。
将该 Bottleneck 输出添加到 y 列表中，得到三个元素 (1,32,640,640)。
拼接张量：
连接 y 列表中的张量在通道维度上，得到的张量形状是 (1,96,640,640)。
（4）通过 cv2：
经过 cv2(conv2d(96,64, 1x1, s=1))，意味着最后一个卷积层将通道数从 96 减少到 64，不改变空间尺寸 (640x640)。
最终输出的张量形状为 (1,64,640,640)，与输入形状一致，完成了 C2f 模块的前向传播过程。

2、SPPF

对于yolov8的SPPF模块，就是上一层的输出进行convbnsilu卷积提取特征后，一部分拿去做池化，将不同层的池化特征与另一部分经过conbnsilu提取特征在拼回去，最后再进行特征提取，结构图如下：
在这里插入图片描述

onnx的netron图如下：
在这里插入图片描述

lindsayshuo

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
3
评论
关于yolov8的一些模块

对于yolov8的c2f模块，就是上一层的输出被split成了两部分，一部分不动，另一部分经过conbnsilu提取特征在拼回去，结构图如下：onnx的netron图如下：(1)c2f(2)bottleneck对于yolov8的SPPF模块，就是上一层的输出进行convbnsilu卷积提取特征后，一部分拿去做池化，将不同层的池化特征与另一部分经过conbnsilu提取特征在拼回去，最后再进行特征提取，结构图如下：
复制链接

扫一扫