YOLO v1,v2,v3总结

最新推荐文章于 2024-06-30 11:41:34 发布

我为什么这么菜.

最新推荐文章于 2024-06-30 11:41:34 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/nn1997729/article/details/119379711

版权

本文详细介绍了YOLO（You Only Look Once）的目标检测算法，从v1到v3的演进过程。YOLOv1通过直接回归目标框和置信度得分实现快速检测，但对小目标和背景处理不足。YOLOv2引入批次归一化，拼接不同尺度特征，使用anchor box提升小目标检测效果。YOLOv3则采用多逻辑分类器和FPN网络，进一步增强小目标检测和类别预测能力。

摘要由CSDN通过智能技术生成

YOLOv1

相比于两步法，yolo v1用网络直接回归出目标框和框置信度得分并对类别进行分类，没有提取建议区域的步骤，比两步法更快（可以将yolo v1看作是faster rcnn中的RPN网络的高精度版）。
从另一种角度理解，yolov1将图像分为了77共49个grid，输出的张量为77*30，分别对应每个grid，这其实就是粗暴地将划分出地grid作为建议区，然后执行两部法的第二部对其进行回归和分类。
在这里插入图片描述

在这里插入图片描述
上图为对应某grid cell的输出张量，对应输出内容，损失函数分为框置信度损失、框定位损失和分类损失，损失函数如下图所示：

计算损失前首先根据标签确认是前景还是背景，如果是背景，则只计算置信度损失；如果是前景，则继续计算定位损失和分类损失。但这个损失计算的方式存在一个问题，那就是无法应对背景较多的情况，因为当背景较多时，置信度损失在反向传播的过程中占据了较大的比重，往往会影响到定位损失和分类损失的反向传播，尽管作者对置信度损失乘了一个小于1的系数，