You Only Look Once:Unified,Real-Time Object Detection总结笔记

向岸看

已于 2023-06-30 00:48:35 修改

阅读量453

点赞数 1

文章标签： YOLO 论文笔记

于 2023-05-21 22:44:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45981086/article/details/130796076

版权

论文：https://arxiv.org/pdf/1506.02640.pdf

中文版：You Only Look Once论文中文翻译

源码：mirrors / hizhangp / yolo_tensorflow · GitCode

目录

一、论文思想

二、网络结构

一、论文思想

1.将一个图像分成S*S个网格（grid cell），如果某个object的中心落在这个网格中，则这个网络就负责预测这个object。

2.每个网格要预测B个bounding box，每个bounding box除了要预测位置之外，还要附带预测一个confidence值。每个网格还要预测C个的类别分数。

bounding box的含义：

bounding box由5个数值组成，分别为x，y，w，h，confidence，其中（x，y）是相对于grid cell预测目标的中心位置参数，（w，h）是相对于整个图像预测目标的中心位置参数，confidence值为预测目标与真实目标的交并比。

confidence分数：

本文中提到confidence分数定义的地方有两处：

pr（Object）是一个布尔值，当检测到有目标对象时为1，否则为0，因此我们可以变相的认为confidence就是IoU值。

下图为上图公式的推导过程。

二、网络结构

yolo的网络模型结构，如下图所示：

训练过程：

1.首先，输入图像先经过一个7x7，步距为2的卷积层，再经过一个2x2，步距为2的下采样，再经过类似的5组卷积层和池化层，输出一个7x7x1024的特征图。

2.其次，将特征图进行展平（flatten）处理，再经过两个全连接层，得到一个长度为1470的特征向量

3.最后，将特征向量reshape为一个7x7x30的特征矩阵

（除了最后一层的输出使用了线性激活函数，其他层全部使用Leaky Relu激活函数）

最终输出的是一个7 x 7 x 30的张量。

Feature map结构，如下图所示：

沿着深度方向的每一行包含30个数组，分别为2个bounding box + 2个confidence值 + 20个类别分数，每个bounding box又包含4个值，这4个值为目标的坐标信息。

三、训练

1.Leaky Relu激活函数

除了最后一层的输出使用了线性激活函数，其他层全部使用Leaky Relu激活函数

2.损失函数

该损失函数为误差平方和，最终的损失共包含三个部分，分别为bounding box损失、confidence损失、classes损失。以保证误差值不偏向大目标或小目标。

四、实验

数据集：Pascal VOC 2007和2012

对比网络：R-CNN Minus R、Fast R-CNN、Faster R-CNN、DPM

对比结果：

五、结论

yolo网络可以同时预测一张图像中的所有类别的所有边界框，再通过confidence分数判断是否对框包含目标对象，只需要一次网络评估，来加快模型预测检测的速度。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
You Only Look Once:Unified,Real-Time Object Detection总结笔记

沿着深度方向的每一行包含30个数组，分别为2个bounding box + 2个confidence值 + 20个类别分数，每个bounding box又包含4个值，这4个值为目标的坐标信息。首先，输入图像先经过一个7x7，步距为2的卷积层，再经过一个2x2，步距为2的下采样，再经过类似的5组卷积层和池化层，输出一个7x7x1024的特征图。bounding box由5个数值组成，分别为x，y，w，h，confidence，其中。（x，y）是相对于grid cell预测目标的中心位置参数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

向岸看 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。