YOLO-V3的改进:
- 最大的改进就是网络结构,使其更适合小目标检测
- 特征做的更细致,融入多持续特征图信息来预测不同规格物体
- 先验框更丰富了,3种scale,每种三个规格,一共9种。(v1版本2种;v2版本5种)
- softmax改进,预测多标签任务
多scale方法改进与特征融合:
- 为了能检测到不同大小的物体,设计了3个scale
- 左图:对不同的特征图分别利用;右图:不同的特征图融合后进行预测
残差连接:
- 由于56层神经网络比20层神经网络差,为了缓解神经网络越深效果越差的问题,采用ResNet
- 为了提取更好的特征,至少不比原来差
整体网络模型架构分析:
- 没有池化层和全连接层,全部卷积
- 下采样通过stride = 2实现
- 上采样(UpSampling):主要目的是放大原图像
- 下采样(SubSampled):生成对应图像的缩略图
- 3种scale,更多先验框
- 基本上经典做法全融入了
- 下图(1)是基于VOC数据集讲解的,VOC数据集有20个类别, 75 = 3 ∗ ( 4 + 1 + 20 ) 75 = 3*(4+1+20) 75=3∗(4+1+20)
- 每个网格有3个先验框(又称锚框,anchors)
先验框设计改进:
- YOLO-V2中选了5个,V3选了9种
softmax层改进:
- 物体检测任务中可能一个物体有多个标签
- logistic激活函数来完成,这样就能预测每一个类别是/不是
YOLO-V3检测流程: