YOLO v1
1、核心思想
YOLO算法的核心思想是,将整张图片作为输入,利用网络的输出结果直接回归预测出bounding box的调整参数和物体所属类别。
2、结构流程
YOLOv1的整体结构流程是,对于一张输入的图片进行特征提取,输出的特征层可以看做把原始图片划分成s×s的网格,如果我替的中心点络在某一网格内则这个物体就由该网格负责预测。
每一个网格有B个bounding box.除了需要预测Bounding box位置信息,还需要预测一个值confidence,confidence这个值在faster CNN网络中是没有的。confidence的计算方法:
如果bounding box中存在物体,则第一个值等于1,否则等于0。第二个指标是预测框和真实框的重和程度。
论文中yolo模型的结构如图所示,输出特征层大小为7×7×30.
通道数30表示的含义是:对于VOC数据集物体类别总数为20,每一个网格对应2个bounding box,每一个bounding box对应框中是否存在物体和bounding box的调整参数(h,w,x,y)。
在test 过程中,计算
包含三个信息:预测框中是否存在物体,预测框的调整参数,还有物体所属类别。
class信息是针对每个网格的,confidence信息是针对每个bounding box的。
3、Loss计算方法
yolo v1损失函数包括三部分:
bounding box位置和宽高信息,confidence,class
这三部分内容和上面式子中的内容是对应的:confidence计算预测框中是否存在物体的 loss(存在物体判断为不存在物体,不存在物体判断为存在物体),bounding box 计算框的位置和大小信息的 loss,class计算网格中物体所属类别的 l