前言:
目前深度学习的网络主要分为两大类
1、Two Stage:两阶段目标检测
Two Stage是2013年到2015年的主流算法,后来逐渐发展为One Stage的目标检测算法。
Two Stage算法是先进性区域生成,该区域称之为region proposal(简称RP,一个有可能包含待检测物体的预测框),再通过卷积神经网络进行样本分类。
流程:特征提取-->生成待检测物体的预测框-->分类/定位回归
Two Stage具有代表性的目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN等。
2、One Stage:端到端目标检测
One Stage与Two Stage的主要区别:One Stage是直接在网络中提取特征来预测物体分类和位置,想在主流的网络都是采用端到端的方式进行的目标检测。
常见的One Stage的目标检测网络有:Yolo系列、SSD系列、Anchor Free系列等。
下面我们谈一谈yolov1
YOLOV1
yolov1的核心思想是:使用一整张图作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。
bounding box:检测框,也就是把目标框选出来的框,如下图的红色框。
YOLOV1的实现思想:将一副图像分成SxS个网格。在论文中是将图像分为7x7的网格,如上图。
网络结构
YOLOV1目标检测一共分为三个步骤:
1、resize图片尺寸
2、输入网络
3、NMS(非极大值抑制)
第一步的resize就是为了将不同尺寸的图片适配到统一的网络结构中,所以需要resize成相同的尺寸。
接下来我们看网络结构
这里我们可以看到网络最终输出的是7x7x30。以上图中的狗为例,7x7是将图像分为7x7个区域进行预测。
接下来我们解释30都代表什么,网络最终输出tensor的前五个数值分别为bounding box的下x,y,w,h,c(x,y为bounding box的中心坐标,w,h为bounding box的宽和高,c为bounding box的置信度),置信度:算法在预测出目标的准确率,最高为100%,置信度越高代表预测出这个物体的准确度越高。
而一个中心点会预测出2两个bounding box,这个操作可以减少漏检率,因为可以适应不同形状的bounding box,从而提高bouding box的准确率。最后通过nms来筛选出两个bounding box中最优的bounding box,所以最终输出的还是一个bounding box。
通过以上的解释,我们可以得到后面的30是代表什么的,分别是(2*5+20),2为保留的两个bounding box,5为x,y,w,h,c,20为类别数量(这个数量根据自己的数据集的类别数量变化而变化,这里之所以是20是因为yolov1使用的是VOC数据集进行的训练,所以这里的类别数量为20,如果你自己的数据集的类别为3,那么这里就是3),由此我们可以知道输出的信息都代表什么了。
Loss
loss在网络中是非常重要的一个环节,因为一个模型训练的好坏是由Loss函数和优化器决定的。yolov1使用的优化器为普通的梯度下降法,而loss采用的方式全部为误差平方和损失作为loss。
由于博主是一个大懒货这里就写loss的详细的过程了,loss详细过程请见如下链接
(21条消息) 目标检测模型YOLO-V1损失函数详解_智能算法的博客-CSDN博客
参考链接,这位博主写的非常的详细: