YOLOv1
相比于两步法,yolo v1用网络直接回归出目标框和框置信度得分并对类别进行分类,没有提取建议区域的步骤,比两步法更快(可以将yolo v1看作是faster rcnn中的RPN网络的高精度版)。
从另一种角度理解,yolov1将图像分为了77共49个grid,输出的张量为77*30,分别对应每个grid,这其实就是粗暴地将划分出地grid作为建议区,然后执行两部法的第二部对其进行回归和分类。
上图为对应某grid cell的输出张量,对应输出内容,损失函数分为框置信度损失、框定位损失和分类损失,损失函数如下图所示:
计算损失前首先根据标签确认是前景还是背景,如果是背景,则只计算置信度损失;如果是前景,则继续计算定位损失和分类损失。但这个损失计算的方式存在一个问题,那就是无法应对背景较多的情况,因为当背景较多时,置信度损失在反向传播的过程中占据了较大的比重,往往会影响到定位损失和分类损失的反向传播,尽管作者对置信度损失乘了一个小于1的系数,