YOLOV3详解

文章介绍了DarkNet53作为YOLOv3的主干网络结构,包括DBL基本单元,残差模块resn,以及FPN层如何实现多尺度目标检测。损失函数部分详细阐述了为何使用均方误差和二值交叉熵,并提到源码中xy损失函数也采用了二值交叉熵。
摘要由CSDN通过智能技术生成

主干网络 

主干网络(backbone):DarkNet53(没有全连接层,所以YOLOv3只用了前52层),基本单元:DBL(卷积+BN+Leaky Relu),大组件:resn。

52 = 1+1+1*2+1+2*2+1+8*2+1+8*2+1+4*2  

图片尺寸计算公式:(N-K+2P)/S+1 P:边缘填充方式,S:步长。通过backbone后图片尺寸变成原尺寸的1/32,所以一般要求输入图片尺寸为32的倍数。

 

 BN层:引入可学习的缩放和平移参数,使得均值和方差可以调整到合适的值,通过反向传播优化参数。

Leaky Relu:增加模型的非线性特征提取能力,便于区分目标和背景。

残差模块resn:n表示包含几个res(残差块),res前面的DBL的作用为降采样,使用核为3*3,步长为2的卷积块,代替池化层。

  • res结构:第一个DBL的卷积为1*1卷积块,第二个为3*3卷积块。
  • add操作:将经过两次DBL操作后的数据与原始数据直接相加,不会改变张量维度。

FPN(feature pyramid network)

concat:张量拼接。将DarkNet中间层与后面的某一层的上采样进行拼接。会扩充张量的维度。

上采样:通过插值法(最邻近插值),yolov3采用的是转置卷积的方式。

通过FPN层使得输出为3个不同尺度的feature map,实现检测不同size的目标。

损失函数

包括四类:左上角坐标(x,y),(w,h),class,confidence

坐标损失函数采用均方误差(MSE),其他采用二值交叉熵(BCE)。


 二值交叉熵:处理二值分类任务。 yi为目标值,yi帽为预测值。两者越接近loss越小。

坐标采用均方误差的原因:边界尺寸为连续值,均方误差可以对连续差异提供平滑的梯度信号。

类别预测和置信度预测采用二值交叉熵的原因:这两个都是离散值,二值交叉熵可以比较预测值和真实值的二元关系,提高明确的梯度信号。   

但是源码中xy的损失函数也是采用二值交叉熵函数,效果较好。  

 

 

 

YOLOv3是一种基于深度学习的目标检测算法,由Joseph Redmon和Ali Farhadi提出。与之前的版本YOLOv1和YOLOv2相比,YOLOv3在检测速度和准确性方面有了显著的提升。下面我们来详细了解一下YOLOv3的原理和技术。 YOLOv3的原理 YOLOv3采用了一种全新的架构,称为Darknet-53。它是一个53层的卷积神经网络,用于提取图像中的特征。Darknet-53的架构类似于ResNet-50,但使用了更小的卷积核和更多的卷积层。这使得Darknet-53可以更好地处理复杂的图像,并从中提取更多的信息。 YOLOv3的检测过程分为三个步骤:分割、预测和后处理。 1. 分割 在第一个步骤中,YOLOv3将输入图像分成多个较小的网格。每个网格都会负责检测图像中的目标。例如,如果我们将输入图像分成13×13的网格,那么每个网格就负责检测图像中的一个目标。 2. 预测 在第二个步骤中,YOLOv3对每个网格进行预测。每个网格预测包含三个边界框和相应的类别概率。边界框用于表示目标的位置和大小。类别概率用于表示目标属于不同类别的概率。对于每个边界框,YOLOv3还会预测一个置信度分数,用于表示该边界框是否包含目标。 3. 后处理 在第三个步骤中,YOLOv3使用非极大值抑制(NMS)算法来消除重复的边界框。NMS算法会根据预测的置信度分数对边界框进行排序。然后,它将从分数最高的边界框开始,逐个比较其余边界框,并删除与其IoU大于预设阈值的边界框。最后,只留下得分最高的边界框,用于表示该目标的位置和类别。 YOLOv3的技术 YOLOv3采用了一系列技术来提高检测准确性和速度。以下是其中一些技术: 1. FPN YOLOv3使用特征金字塔网络(FPN)来处理不同尺度的特征图。FPN可以从不同层次的特征图中提取有用的信息,并将它们融合成一个更全面的特征图。这使得YOLOv3可以更好地检测不同大小和比例的目标。 2. Anchor boxes YOLOv3采用了一种新的边界框预测方法,称为anchor boxes。它通过预测多个固定尺寸和比例的边界框来提高检测准确性。这使得YOLOv3可以更好地处理不同大小和比例的目标。 3. SPP YOLOv3使用了空间金字塔池化(SPP)来在不同尺度的特征图上进行池化操作。这使得YOLOv3可以更好地处理不同大小的目标,并减少了对特征图大小的限制。 4. Darknet-53 YOLOv3采用了Darknet-53作为其特征提取器。Darknet-53具有更小的卷积核和更多的层,使其能够更好地处理复杂的图像,并从中提取更多的信息。 总结 YOLOv3是一种强大的目标检测算法,它在速度和准确性方面都有很大的优势。它采用了一系列技术来提高检测准确性和速度,如FPN、anchor boxes、SPP和Darknet-53等。如果您需要进行目标检测任务,那么YOLOv3是一个值得尝试的算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值