YOLO学习：YOLO v1论文理解

最新推荐文章于 2024-04-24 09:45:00 发布

ChouPiJang

最新推荐文章于 2024-04-24 09:45:00 发布

阅读量236

点赞数

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ChouPiJang/article/details/84583440

版权

计算机视觉专栏收录该内容

6 篇文章 0 订阅

订阅专栏

概括：

YOLO在设计中摒弃了采用先进行目标检测再进行目标识别的方法，而是利用回归通过神经网络进行一次的估计输出目标所在的bounding box（框）以及class（类别）。

统一检测：

（）将输入图片进行划分，得到S*S个栅格

（）每个栅格单元可以预测B个bounding box以及各个bounding box置信度P:

$\mathbb{P}\left ( Object \right )*IOU$

其中IOU为系统预测出的框与原来标出的框的重合程度：

$IOU=\frac{area\left ( predictedBox\bigcap truthBox \right )}{area\left ( predictedBox \right )+area\left ( truthBox \right )}$

（）同时，每个栅格也用于计算C个关于类别的条件概率：

$\mathbb{P}\left (Class_{i}\mid Object \right )$

（）输出结构为5个参数(x，y，width，height，P）：

（x，y）：栅格中心

（width，height）:相对于整幅图片的宽度以及高度

（p）：置信度

网络设计：

（）采用了卷积神经网络，首个卷积层获取图片特征，全连接层预测输出结果

（）共有24个卷积层和2个全连接层

训练：

（）使用ImageNet数据对卷积层进行预训练

（）图片大小448*448

（）height以及width进行了归一化处理，取值范围在0-1

（）x，y根据位于特定的边界框中偏移量进行参数化处理，取值范围在0-1

（）采用了线性激活函数：

if x>0： $\o \left ( x \right )=x$

else: $\o \left ( x \right )=0.1x$

（）优化方法：最小误差和平方；同时由于图片的绝大部分不包含物体，因而需要区别有目标与无目标部分的参数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。