学习：YOLO系列之yolo v1

最新推荐文章于 2024-06-26 15:04:49 发布

BruceCheen

最新推荐文章于 2024-06-26 15:04:49 发布

阅读量498

点赞数

分类专栏：程序人生目标检测

程序人生同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

目标检测

21 篇文章 0 订阅

订阅专栏

复制链接
yolo v1发表在CVPR2016上，是经典的one-stage检测算法。在没接触yolo之前，我曾经就和师兄争论过，是否能把bounding box的坐标和宽高像分类网络那样预测出来，Yolo v1的出现证明了我的猜测是对的。

论文标题: 《You Only Look Once: Unified, Real-Time Object Detection》
论文地址：https://arxiv.org/pdf/1506.02640.pdf

v1是yolo系列的开山之作，以简洁的网络结构，简单的复现过程(作者给出详细教程)而受到CVer们的追捧。
yolo_v1奠定了yolo系列算法**“分而治之”的基调**，在yolo_v1上，输入图片被划分为7X7的网格，如下图所示:

在这里插入图片描述
如上图所示，输入图片被划分为7x7个单元格，每个单元格独立作检测。

在这里很容易被误导：每个网格单元的视野有限而且很可能只有局部特征，这样就很难理解yolo为何能检测比grid_cell大很多的物体。其实，yolo的做法并不是把每个单独的网格作为输入feed到模型，在inference的过程中，网格只是物体中心点位置的划分之用，并不是对图片进行切片，不会让网格脱离整体的关系。

可以通过yolo_v1的structure来进一步理解，相比faster r-cnn那种two-stage复杂的网络结构而言，yolo_v1的网络结构显得亲民得多。基本思想是这样：预测框的位置、大小和物体分类都通过CNN暴力predict出来。
在这里插入图片描述
上面是结构图yolo_v1结构图，通过结构图可以轻易知道前向传播的计算过程，是很便于读者理解的。v1的输出是一个7x7x30的张量，7x7表示把输入图片划分位7x7的网格，每一个小单元的另一个维度等于30。30=(2*5+20)。代表能预测2个框的5个参数(x,y,w,h,score)和20个种类。
在这里插入图片描述
可以看出输出张量的深度影响yolo_v1能检测目标的种类。v1的输出深度只有30，意味着每个单元格只能预测两个框(而且只认识20类物体)，这对于密集型目标检测和小物体检测都不能很好适用。