Yolo经典网络结构
一、网络结构
1、开山之作yolov1
该模型主要有三块,输入、简单的卷积网络模型(卷积、池化、平铺、全连接层、操作)、输出
2、他山之石yolov2
3、yolov5
4、yolov8
二、经典卷积神经特征提取网络
不同的特征提取网络结构有不同程度的提取能力,目标检测算法应用不同的主干特征提取网络,其检测效果也存在着差异,以下几种经典的特征提取网络。
1、AlexNet 网络
2、VGGNet 网络
3、ResNet 网络
4、Darknet53 网络
额外补充:不同特征提取的方法
路径聚合网络:
FPN、FAN
FPN 本质是将高层丰富的语义信息传递到低层,使低层包含的信息更加丰富。虽然增强了低层的语义信息,但是信息传输仍旧是单向的。
PAN (Path Aggregation Network)在 FPN 结构的基础上增加了下采样过程为了使高层也获得低层的丰富细节。
三、训练过程
首先输入448*448的三通道图像,模型会将图片切成7*7个小网格,每个小网格会有两个候选框用于找到物体并预测物体概率,经过NMS筛选和IOU判断后,输出几个框在原图上。如下图所示。
四、改进模块
主要错误类型:
我们可以通过训练的结果:map指标来分析出多目标检测的错误分布,对症下药做出改进。本文将训练后的数据样本分为以下几种错误。
(1)分类错误:本来是猫被预测为狗了。
(2)定位错误:分类正确,但是预测框与训练数据样本的真实框差距有点大。
(3)分类和定位都错误:把猫当成狗而且预测框与真实框相差有点远。
(4)重复检测:分类正确但一个目标有两个框、两个置信度。
(5)背景错误:把背景也预测了一个框
(6)漏检问题:没有检测该目标。
下面对FP/FN/TP/TN做出解释与错误类型。
FP错误:目标可以是1-6种错误类型。
FN错误:大概率是漏检啦。
3.1损失函数组成及作用
位置损失+置信度损失+分类损失。通过损失函数才能反向传播去更新模型里面的参数。
公式: