YOLOV3详解

论文地址:yolo v3
建议先理解 yolo v1详解 , yolo v2详解

YOLOV3 是集成了 SSD(多尺度预测), FCN(全卷机),FPN(特征金字塔),DenseNet(特征通道concat) 网络的大成之作!

YOLOV3 的主干网络backbone 称为 DarkNet, 主要有DarkNet-21 , DarkNet-53, 区别在于每层的 ResidualBlock 个数不同.

yolo-v3 网络结构:

在这里插入图片描述

1、DarkNet-53 搭建:

darknet-53 由一个初始卷积层 + 5个Layer 层构成,进入layer层后进行下采样,大小减半,通道增倍。每个Layer 由若干个 ResidualBlock组成。

ResidualBlock 构建:

out = in + (1x1conv + 3x3conv)[ in ]

    def forward(self, x):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu1(out)
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu2(out)
        out += residual  # Residual Block
        return out
生成layer:

先进行下采样,然后多个residuablock 组合。例如 plane = [32, 64 ]表示整个layer输入通道=32 ,输出通道=64。在layer 中进行 blocks 次 ResidualBlock。

    def _make_layer(self, planes, blocks):
        layers = []
        #  downsample
        layers.append(("ds_conv", nn.Conv2d(self.inplanes, planes[1], kernel_size=3,
                                stride=2, padding=1, bias=False)))
        layers.append(("ds_bn", nn.BatchNorm2d(planes[1])))
        layers.append(("ds_relu", nn.LeakyReLU(0.1)))
        #  blocks
        self.inplanes = planes[1]
        for i in range(0, blocks):
            layers.append(("residual_{}".format(i), BasicBlock(self.inplanes, planes)))
        return nn.Sequential(OrderedDict(layers))
layer 组合生成 DarkNet:
 def __init__(self, layers):
        super(DarkNet, self).__init__()
        self.inplanes = 32
        self.conv1 = nn.Conv2d(3, self.inplanes, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(self.inplanes)
        self.relu1 = nn.LeakyReLU(0.1)
        self.layer1 = self._make_layer([32, 64], layers[0])
        self.layer2 = self._make_layer([64, 128], layers[1])
        self.layer3 = self._make_layer([128, 256], layers[2])
        self.layer4 = self._make_layer([256, 512], layers[3])
        self.layer5 = self._make_layer([512, 1024], layers[4])
        
        self.layers_out_filters = [64, 128, 256, 512, 1024]

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu1(x)
        x = self.layer1(x)
        x = self.layer2(x)
        out3 = self.layer3(x)
        out4 = self.layer4(out3)
        out5 = self.layer5(out4)

        return out3, out4, out5

DarkNet-53 网络输出3个不同尺寸的 featureMap

2、上采样特征融合输出:

本层特征经过 DBL(5层卷积)后分两个分支:
branch1:输出本层特征
branch2:上采样与次深层特征融合,生成此层融合特征。

  #  backbone
        x2, x1, x0 = self.backbone(x)
        #  yolo branch 0
        out0, out0_branch = _branch(self.embedding0, x0)
        #  yolo branch 1
        x1_in = self.embedding1_cbl(out0_branch)
        x1_in = self.embedding1_upsample(x1_in)
        x1_in = torch.cat([x1_in, x1], 1)
        out1, out1_branch = _branch(self.embedding1, x1_in)
        #  yolo branch 2
        x2_in = self.embedding2_cbl(out1_branch)
        x2_in = self.embedding2_upsample(x2_in)
        x2_in = torch.cat([x2_in, x2], 1)
        out2, out2_branch = _branch(self.embedding2, x2_in)
        return out0, out1, out2

输出3层预测结果 out0, out1, out2

大小分别为 13,26,52 通道数为 255 = 3 ×(5 + 80),即每个featuremap 上的点有3个预设anchor , 每个anchor 预测: 80类别 + 置信度 + 位置(x,y,h,w)

输出的3层特征图下采样倍数分别为 32 、 16、8

经过Darknet-53(无全连接层),再经过DBL- block 生成的特征图被当作两用,第一用为经过33卷积层、11卷积之后生成特征图一,第二用为经过1*1卷积层加上采样层,与Darnet-53网络的中间层输出结果进行拼接,产生特征图二。同样的循环之后产生特征图三。

生成特征图之前经过 3x3 + 1x1卷积, 上采样之前经过 1x1卷积已经是大多数网络的共性。

3、特征图解码

网络输出特征图 8 × 8 × 255、16 × 16 × 255、32 × 32 × 255,每个特征点上有3个anchor,所以最后reshape为8 × 8 × 3 × 85、16 × 16 × 3 × 85、32 × 32 × 3 × 85,这样更容易理解和实现。

3.1 、检测框解码 :

使用k-means对数据集中的标签框进行聚类,得到类别中心点的9个框,作为先验框。在COCO数据集中(原始图片全部resize为416 × 416),九个框分别是 (10×13),(16×30),(33×23),(30×61),(62×45),(59× 119), (116 × 90), (156 × 198),(373 × 326) ,顺序为w × h。

先验框只与检测框的w、h有关,与x、y无关,所以是聚类(w, h)。

box框聚类方法:

将box 框中心点对齐(全部假设为(0,0)),预设9个初始值box_cj(w, h).
dist = 1 - IOU(box_cj, box_i)
即可得到 box_i 所属的类别,对同一类别的所有Box 求平均(w, h)更新 box_cj获取新的中心(w,h)。

特征图预测的是 (tx, ty, tw, th). 与对应的先验anchor 解码出实际的检测框:

在这里插入图片描述
因为 cx, cy 已经归一化到特征图上,所以偏移量sigmoid(tx)是anchor中心点在正向偏移,在(0,1)之间。所以最后计算的 bx, by需要乘上特征图下采样倍率 才能得到真的 x, y。

在这里插入图片描述
3.2 、置信度解码

置信度关系到检测的正确率和召回率。占一位,用sigmoid 函数约束成概率【0,1】即可。

3.3、类别解码

每一维独立代表一个类别的置信度。使用sigmoid激活函数替代了Yolov2中的softmax,取消了类别之间的互斥,可以使网络更加灵活。

4、训练过程

4.1 、训练样本挑选

1、网络预设anchor有 (8 × 8 + 16 × 16 + 32 × 32)× 3 = 4032 个,所以预测输出4032个pred box. 预测框一共分为三种情况:正例(positive)、负例(negative)、忽略样例(ignore)。

2、正样本:取一个GT,与4032个pred box 计算IOU ,取IOU 最大的pred box 为正样本,并把该pred box 标记为已分配。下一个GT 只能在剩余的4031个pred box 进行匹配IOU,并取最大。 正例产生置信度loss、检测框loss、类别loss

3、负样本:与全部ground truth的IOU都小于阈值(0.5)则为负例。负例只有置信度产生loss,置信度标签为0。
注:(与GT IOU 最大,但是 IOU < 0.5, 仍然为正样本,否则导致此GT没有正样本可训)

4、忽略样本:正例除外,与任意一个ground truth的IOU大于阈值(论文中使用0.5),则为忽略样例。忽略样例不产生任何loss。

4.1 、LOSS

三层LOSS 总和:
在这里插入图片描述
对于单层LOSS:

  1. box框回归LOSS: 针对正样本, MSE loss。回归(tx,ty,tw,th),也可以使用smooth L1 loss。
  2. 置信度LOSS: 针对正负样本,一个简单的二分类交叉熵loss
  3. 分类LOSS:
  4. 通常负例的个数是正例的几十倍以上,可以通过权重超参控制检测效果。

在这里插入图片描述

5、一些 trick

  1. 忽略样本的重要性:不同尺度的特征图之间会有重合检测部分,而正样本往往要挑选最佳的一个。如果特征图1,特征图2 与GT 的IOU为0.98,0.95,将特征图1设为正样本,但是特征图2不能设为负样本。否则导致loss在正负响应loss之间拉扯。
  2. 置信度设置为1,而不是IOU值。用IOU会使很多低置信度的box在推理过程因为设置的激活阈值(比如0.5)被过滤掉。导致召回率偏低。
YOLOv3是一种基于深度学习的目标检测算法,由Joseph Redmon和Ali Farhadi提出。与之前的版本YOLOv1和YOLOv2相比,YOLOv3在检测速度和准确性方面有了显著的提升。下面我们来详细了解一下YOLOv3的原理和技术。 YOLOv3的原理 YOLOv3采用了一种全新的架构,称为Darknet-53。它是一个53层的卷积神经网络,用于提取图像中的特征。Darknet-53的架构类似于ResNet-50,但使用了更小的卷积核和更多的卷积层。这使得Darknet-53可以更好地处理复杂的图像,并从中提取更多的信息。 YOLOv3的检测过程分为三个步骤:分割、预测和后处理。 1. 分割 在第一个步骤中,YOLOv3将输入图像分成多个较小的网格。每个网格都会负责检测图像中的目标。例如,如果我们将输入图像分成13×13的网格,那么每个网格就负责检测图像中的一个目标。 2. 预测 在第二个步骤中,YOLOv3对每个网格进行预测。每个网格预测包含三个边界框和相应的类别概率。边界框用于表示目标的位置和大小。类别概率用于表示目标属于不同类别的概率。对于每个边界框,YOLOv3还会预测一个置信度分数,用于表示该边界框是否包含目标。 3. 后处理 在第三个步骤中,YOLOv3使用非极大值抑制(NMS)算法来消除重复的边界框。NMS算法会根据预测的置信度分数对边界框进行排序。然后,它将从分数最高的边界框开始,逐个比较其余边界框,并删除与其IoU大于预设阈值的边界框。最后,只留下得分最高的边界框,用于表示该目标的位置和类别。 YOLOv3的技术 YOLOv3采用了一系列技术来提高检测准确性和速度。以下是其中一些技术: 1. FPN YOLOv3使用特征金字塔网络(FPN)来处理不同尺度的特征图。FPN可以从不同层次的特征图中提取有用的信息,并将它们融合成一个更全面的特征图。这使得YOLOv3可以更好地检测不同大小和比例的目标。 2. Anchor boxes YOLOv3采用了一种新的边界框预测方法,称为anchor boxes。它通过预测多个固定尺寸和比例的边界框来提高检测准确性。这使得YOLOv3可以更好地处理不同大小和比例的目标。 3. SPP YOLOv3使用了空间金字塔池化(SPP)来在不同尺度的特征图上进行池化操作。这使得YOLOv3可以更好地处理不同大小的目标,并减少了对特征图大小的限制。 4. Darknet-53 YOLOv3采用了Darknet-53作为其特征提取器。Darknet-53具有更小的卷积核和更多的层,使其能够更好地处理复杂的图像,并从中提取更多的信息。 总结 YOLOv3是一种强大的目标检测算法,它在速度和准确性方面都有很大的优势。它采用了一系列技术来提高检测准确性和速度,如FPN、anchor boxes、SPP和Darknet-53等。如果您需要进行目标检测任务,那么YOLOv3是一个值得尝试的算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值