【yolov3】yolov3原理详解

yolov4,yolov5都是在yolov3的基础上做的更改。

一.yolov3骨干网络

52个卷积层,一个全连接层,并且里面加了残差连接。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

每一层的输入输出大小图

在这里插入图片描述

二.输入输出

如上图所示

输入 416x416x3
输出 三个 feature map
13x13x255
26x26x255
52x52x255

输出的255是怎么来的?

每个gred cell生成三个锚框,每一个锚框对应一个预测框,每一个预测框有 5(x,y,w,h,置信度) + 80(80个类别的条件概率) 
3x85=255

多尺度输出的作用

一共9个锚框,一个尺度分配三个
grid cell为13x13,对应输入图像的感受野是32x32
grid cell为26x26,对应输入图像的感受野是16x16
grid cell为52x52,对应输入图像的感受野是8x8
13x13负责预测大物体,分配大的锚框。
26x26负责预测中等大小的物体,分配中等大小的锚框。
52x52负责预测小物体,分配小的锚框。

三.正样本负样本

在这里插入图片描述
假如蓝框是真实框,那么与蓝框IOU最大的是正样本。
与蓝框IOU超过一个阈值,但IOU不是最大,则不参与
与蓝框IOU低于一个阈值,则为负样本

四.yolov3损失函数

在这里插入图片描述

正样本对中心点坐标进行回归
正样本的置信度和类别损失:正样本置信度标签为1
负样本置信损失:负样本置信度标签为0

五.训练过程

在这里插入图片描述

六.测试过程

在这里插入图片描述

去掉置信度小于某个阈值的框
再用NMS将同一个物体重复预测的框去掉
NMS原理:按照置信度排序,取最大的置信度的框,让它与其它框做IOU,当IOU与置信度最大的框超过某个阈值,就视为与置信度最大的框重复预测,就把它去掉。然后再找出除上一个最大的置信度框之外最大的置信度框,重复上述过程

优点

在这里插入图片描述

即发挥了深层网络抽象的特征。
也充分利用了浅层网络细粒度,像素级的信息。

可以对不同尺度的物体进行预测。

补充

下采样

在卷积神经网络中,下采样通常是指对输入数据进行降采样,以减少数据的维度和计算复杂度。下采样倍数表示采样后的数据相对于原数据的减少比例。

如果下采样倍数为3,那么采样后的数据量将是原数据量的1/3。下采样可以通过池化(pooling)或丢弃(discarding)数据等方式实现。

例如,对于一个输入数据为100x100的图像,如果进行3x3的下采样操作,那么采样后的图像大小将为33x33。这样可以减少网络的输入大小,从而减少计算量和过拟合的风险,同时保留重要特征,提高模型的泛化能力。

需要注意的是,下采样倍数并不是任意设定的,它通常根据具体任务和数据集来确定,同时也需要考虑采样的效果和计算资源之间的平衡。

参考链接

https://www.bilibili.com/video/BV1Vg411V7bJ/?spm_id_from=333.788.recommend_more_video.0&vd_source=ebc47f36e62b223817b8e0edff181613

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
YOLOv3是一种基于深度学习目标检测算法,由Joseph Redmon和Ali Farhadi提出。与之前的版本YOLOv1和YOLOv2相比,YOLOv3在检测速度和准确性方面有了显著的提升。下面我们来详细了解一下YOLOv3原理和技术。 YOLOv3原理 YOLOv3采用了一种全新的架构,称为Darknet-53。它是一个53层的卷积神经网络,用于提取图像中的特征。Darknet-53的架构类似于ResNet-50,但使用了更小的卷积核和更多的卷积层。这使得Darknet-53可以更好地处理复杂的图像,并从中提取更多的信息。 YOLOv3的检测过程分为三个步骤:分割、预测和后处理。 1. 分割 在第一个步骤中,YOLOv3将输入图像分成多个较小的网格。每个网格都会负责检测图像中的目标。例如,如果我们将输入图像分成13×13的网格,那么每个网格就负责检测图像中的一个目标。 2. 预测 在第二个步骤中,YOLOv3对每个网格进行预测。每个网格预测包含三个边界框和相应的类别概率。边界框用于表示目标的位置和大小。类别概率用于表示目标属于不同类别的概率。对于每个边界框,YOLOv3还会预测一个置信度分数,用于表示该边界框是否包含目标。 3. 后处理 在第三个步骤中,YOLOv3使用非极大值抑制(NMS)算法来消除重复的边界框。NMS算法会根据预测的置信度分数对边界框进行排序。然后,它将从分数最高的边界框开始,逐个比较其余边界框,并删除与其IoU大于预设阈值的边界框。最后,只留下得分最高的边界框,用于表示该目标的位置和类别。 YOLOv3的技术 YOLOv3采用了一系列技术来提高检测准确性和速度。以下是其中一些技术: 1. FPN YOLOv3使用特征金字塔网络(FPN)来处理不同尺度的特征图。FPN可以从不同层次的特征图中提取有用的信息,并将它们融合成一个更全面的特征图。这使得YOLOv3可以更好地检测不同大小和比例的目标。 2. Anchor boxes YOLOv3采用了一种新的边界框预测方法,称为anchor boxes。它通过预测多个固定尺寸和比例的边界框来提高检测准确性。这使得YOLOv3可以更好地处理不同大小和比例的目标。 3. SPP YOLOv3使用了空间金字塔池化(SPP)来在不同尺度的特征图上进行池化操作。这使得YOLOv3可以更好地处理不同大小的目标,并减少了对特征图大小的限制。 4. Darknet-53 YOLOv3采用了Darknet-53作为其特征提取器。Darknet-53具有更小的卷积核和更多的层,使其能够更好地处理复杂的图像,并从中提取更多的信息。 总结 YOLOv3是一种强大的目标检测算法,它在速度和准确性方面都有很大的优势。它采用了一系列技术来提高检测准确性和速度,如FPN、anchor boxes、SPP和Darknet-53等。如果您需要进行目标检测任务,那么YOLOv3是一个值得尝试的算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

computer_vision_chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值