YOLO 阅读笔记

最新推荐文章于 2024-10-03 14:54:57 发布

取个名字可真难呀

最新推荐文章于 2024-10-03 14:54:57 发布

阅读量524

点赞数 2

文章标签：深度学习目标检测人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42385020/article/details/125415368

版权

YOLO(You Only Look Once:Unified, Real-Time Object Detection)是目标检测中的一种重要方法，

其最核心的内容可以通过YOLOv1这篇论文了解。

一、摘要

之前的目标检测主要是使用分类器进行检测，而YOLO则是将目标检测视为回归问题。对边界框与分类任务使用一个网络即可。

二、介绍

与之前的目标检测方法（先生成预测框再通过分类器）不同，YOLO直接从像素得到预测框与类别，并且由于其网络结构单一，可以达到非常快的检测速度。（在Tian GPU上基本网络运行速率为150fps）。与滑动窗口和基于区域建议的技术不同，YOLO在训练期间是一个全局的过程，其隐含的编码了有关类及其外观的上下文信息。

三、联合检测

YOLO将图像分为SxS个小块，如果图像中心在某一方块中则这一方框负责进行该对象的检测，通过置信分如下图来描述一个对象检测的准确性。当预测框中没有目标时，置信分则为0。

（候选框存在目标的概率*预测框与真实框的交并比）

每一个边界框都存在（x,y,w,h,s）四个值，中心坐标：x,y；长宽：w,h；置信分：s

除此之外还可以预测条件概率，即目标属于某一类别的概率

因为有SxS个子格，每个格子会生成B个方框，每个方框有五个需要确定的值（xywhs）。每个方每个方框可能的类别为C所以最后输出的为S*S*(B*5+C)维的张量。在PASCAL VOC中S=7,B=2,C=5。所以最后输出的是一个7*7*30维张量

四、网络设计

1.网络结构

2.loss函数

所有的误差都是使用的均方差来实现的。

λcoord = 5 and λnoobj =0.5分别代表坐标误差和置信分误差的权重，表示在第i个子格中，第j个预测框中是最匹配的目标，每个对象最后只会对应一个预测框，纵使两个框有重合但是只取重合度最高的那一张。

第一部分是 xywh的损失，wh有根号是因为，当真实框与预测框出现9*9 5*5 1*1 这种情况时，wh的误差都是4，而其面积是不同的所以使用根号来调整这个误差

第二部分是置信度误差，包括存在目标的置信分和不包含物体时的置信分，包含物体时用上面那个，不包含时用下面这个。

第三部分是类别误差是概率的均方差。

真实的置信度与概率均为1。

取个名字可真难呀

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。