yolov3算法

1 Darknet-53

在YOLOv2版本时,其主干网络是一个Darknet-19网络,到了YOLOv3版本,主干网络进化为了Darknet-53网络,网络层数更多,同时也引进了更加先进的Resnet残差网络。与Darknet-19网络相比,Darknet-53网络在处理大量图片时整体效率上有所不如,但是准去率上确提高了很多,且经证明,

2. 特征金字塔(Feature Pyramid Netword, FPN)

在相同准确率下,Darknet-53速度却要由于Darknet-19。
进行目标检测时,一副图像与可能存在多个物体,物体有大有小,所以目标检测模型必须要有检测不同大小物体的能力。而在实际卷积神经网络各层输出的特征图中,不同深度的卷积层所检测到的特征是有区别的,浅层网络的输出的特征图经过的卷积操作少,保留较多的小尺寸细节信息,例如物体颜色、位置、边缘等,信息更加低级、具体,随着网络深度的加深,输出的特征图经过了更多层卷积操作,包含了更广视野范围的图像信息,特征图所提取的信息变得抽象,例如物体的语义信息(物体的类别特征:猫、狗、汽车等)

3 输出结果解析

从上图中可以到,虚线框内的Darknet-53网络对右侧网络有3个输出,最底下的输出是13×13×1024的特征图,这一输出经过最多层卷积操作,包含更高级、更抽象、视野范围更大的特征,适合尺寸较大的目标检测,在右侧网络中,这一特征图再次经过卷积的特征图先两个方向传递,一个是再次经过3×3和1×1的卷积后输出13×13×75的特征图用于目标检测,另一个是进行上采样改变特征图大小后与Darknet-53网络的第二个输出特征图进行堆叠组成新的特征图,这个新的特征图再次进行卷积,也同样进行两个方向的传递,其中一个方向最终输出26×26×75的特征图用于目标检测中,另一个方向的是进行上采样转变尺寸后与Darknet-53网络第一个输出的特征图进行堆叠后形成新的特征图进行特征提取,最终输出52×52×75的特征图,这一特征图包含了浅层网络提取的特征图对小尺寸目标检测更有一定提升。

在上述过程中,两次用到上采样和特征堆叠,其中上采用是将小尺寸特征图通过插值等方法,生成大尺寸图像。例如使用最近邻插值算法,将88的图像变换为1616,注意,上采样层不改变特征图的通道数。而特征堆叠是指的是concat操作,源于DenseNet网络的设计思路,将特征图按照通道维度直接进行拼接,例如8816的特征图与8816的特征图拼接后生成8832的特征图。

总结而言,经过上述主干网络后,将输出以下三种不同大小的特征图:

13×13×75

26×26×75

52×52×75
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值