【目标检测】YOLO: You Only Look Once

最新推荐文章于 2022-11-25 14:56:49 发布

shenxiaolu1984

最新推荐文章于 2022-11-25 14:56:49 发布

阅读量5.6k

点赞数 3

分类专栏：论文解读文章标签：深度学习目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/78826995

版权

Redmon, Joseph, et al. “You Only Look Once: Unified, Real-Time Object Detection.” (2015):779-788.

概述

目标检测中的RCNN系列¹算法遵循2-stage的流程：首先找出一系列（预先设定好的）候选区域，而后对这些候选区域进行分类以及位置修正。
YOLO则开启了1-stage的流派：直接用一个深度网络，回归出目标的位置和归类。

基础YOLO检测器的速度能够达到45 fps，更快的Fast YOLO则能够达到惊人的155 fps。

网络结构

YOLO将输入图像划分为 $\times S$ 个网格（grid），并做了一个粗略的近似：每个网格最多含有一个目标。

这种近似显然影响YOLO对于密集小物体的召回率，但胜在速度很快。

对于每个网格，预测以下变量：

【分类】该网格内目标属于每个类别的概率 $p$
【定位】 $B$ 个bounding box，描述目标的位置 $x, y$ 和尺寸 $w, h$
【定位】 $B$ 个confidence，描述相应bounding box是目标的置信度 $C$

对于较大，或者处于网格交界处的目标，可能需要由多个bounding box组合而成。这也是为bounding box预测置信度的原因。

每个bounding box可以专注于一种长宽比或者一类目标。

对于PASCAL VOC任务，类别数=20。设定 $S = 7$ ， $B = 2$ 。使用的网络如下图所示：
这里写图片描述

输入为448*448彩色图像，比RCNN系列增大一倍。

其中蓝色的卷积网络包含24或9个卷积层，基本遵循googLeNet²的设计，降采样为 $2^4$ ，输出771024的特征图。

两个绿色的全连层从特征图回归出每个网格的30个预测。

训练

标定与预测

如果目标的中心在一个网格内部，称为“目标在网格内”。

这里暗含假设：每个网格最多含有一个目标。论文中没有明确指出如何处理多个目标的情况，有待结合源码查看。

真实数据记为：

$\hat{x_i}, \hat{y_i}$ ：网格 $i$ 中目标的左上角位置
$\hat{w_i}, \hat{h_i}$ ：网格 $i$ 中目标的尺寸
$\hat{C_{ij}}$ ：网格 $i$ 的第 $j$ 个bounding box和目标的IOU
$\hat{p_i}$ ：网格 $i$ 的1-hot编码分类概率

对于每一个网格 $i$ ，输出 $B$ 个定位结果（目标在哪里）：

$x_{ij},y_{ij}$

最低0.47元/天解锁文章

关注

3
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
【目标检测】YOLO: You Only Look Once

YOLO目标检测算法详解
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。