前言
yolo系列讲解 改系列的相关文章链接如下: [论文链接汇总](https://pjreddie.com/publications/)
一、YoloV1
特点:
全局推测,直接将图片划分为S*S的网格,每个网格预测n个目标坐标,20个类别的可能性
每个预测的目标会给出一个置信度(目标概率*IOU)
每个框预测的参数数量为 (4+1)*2 +20
没用anchor的概念,直接预测坐标的。
对小目标密集目标的检测效果较差
网络结构:
对原始图片做卷积到一个7*7大小的尺寸,然后做全连接处理再重新reshape回来。
损失函数:
二、YoloV2
特点: 在V1的基础上进了改进
Batch Normalization
High Resolution Classifier
Convolutional With Anchor Boxes
使用achor的方式来预测
使用先验知识来框出一个目标的大小,然后真实的标注数据会根据这个框计算一个偏差,预测的数据也会根据这个框计算一个偏差,然后两个偏差计算损失度。
使用正负样本来计算损失:
正样本是大于某一个IOU的负样本是小于某一个IOU的
负样本只计算类别损失置信度损失,不计算位置损失。
Dimension Clusters
使用聚类的方法来获取anchor的大小,根据数据的情况而变换的,要自己聚类奥。
Direct location prediction
限制预测的偏移量,预测的x,y都限定在当前的预测框内,增加预测的稳定性
Fine-Grained Features
进行特征的融合,把高维特征和低维的特征图融合,解决小目标检测问题
Multi-Scale Training
每迭代几次都更改输入图片的尺寸,尺寸选择为缩放因子的整数倍。
预测结果:
使用1*1的卷积来进行预测
预测结果为 每个框给5个预测值,每个值都预测置信度位置和类别三种信息(125个信息)。
网络结构: