论文笔记之YOLO

最新推荐文章于 2022-08-15 15:18:23 发布

To_1_oT

最新推荐文章于 2022-08-15 15:18:23 发布

阅读量252

点赞数

分类专栏：论文笔记文章标签：神经网络深度学习计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haha0825/article/details/105457845

版权

论文笔记专栏收录该内容

48 篇文章 13 订阅

订阅专栏

1. YOLO

1.1介绍

You Only Look Once，顾名思义，你只需要看一次就知道这个图中的object，这也符合人眼的逻辑。YOLO将物体检测直接当做一个回归问题来处理，直接通过神经网络，输入图片，输出object的边界框坐标以及类别。YOLO的特点是速度非常快，精度不太高。

1.2 总体流程

在这里插入图片描述
1）将图像resize到固定大小作为神经网络的输入
2）深度神经网络处理后输出框坐标、box中包含物体的置信度以及类概率
3）NMS后输出最终的检测框

1.3 网络结构

YOLO检测网络包括24个卷积层和2个全连接层,如图所示：

在这里插入图片描述
其中，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。
YOLO网络借鉴了GoogLeNet分类网络结构。不同的是，YOLO未使用inception module，而是使用1x1卷积层（此处1x1卷积层的存在是为了跨通道信息整合）+3x3卷积层简单替代。

1.4 检测模型

在这里插入图片描述
YOLO是将输入图像划分为S×S个小网格。如果物体的中心落入网格单元，则该网格单元负责检测该物体。每个网格单元预测边界框和这些框的置信度得分。这些置信度得分反映了box中包含一个物体的可能性，以及模型认为box预测的准确性。形式上，将置信度定义为Pr（Object）* IOU（truth ，pred）。如果该单元格中没有物体，则置信度分数应为零。否则，置信度分数等于预测框与真实框之间的交并比（IOU）。

每个边界框由5个预测组成：x，y，w，h和置信度。（x，y）坐标表示框相对于网格单元边界的中心。 w和h是相对于整个图像预测的宽度和高度。最后，置信度预测表示预测框与任何真实框之间的IOU。

每个网格单元还预测C个条件类概率Pr（Classi|Object）。这些概率以包含目标的网格单元为条件。无论框的数量如何，仅预测每个网格单元的一组类概率。

在测试时，将类概率与各个框的置信度预测相乘，在这里插入图片描述这提供了每个框的特定类的置信度得分。这些分数既编码了该类别出现在box中的概率，也代表了预测的box符合这个物体的程度。

1.5 Loss函数

在这里插入图片描述
其中，表示目标是否出现在单元格i中，表示单元格i中的第j个边界框预测器对该预测负责。

前两行为坐标损失（只对这个网格单元中任何和真实值有最高的IOU的预测框计算）；后两行为置信度损失（对所有网格计算），最后一行为分类损失（只对存在object的网格单元计算）

1.6 不足之处

YOLO对边界框预测施加了很强的约束（每个网格单元只能预测两个框，并且只能有一个类）。这个约束限制了模型可以预测的邻近目标的数量，所以模型对于成群出现的小物体表现不好，例如成群的鸟。
由于模型从数据中学习预测边界框，所以它很难推广到新的或不寻常的宽高比的物体。
损失函数对待小边界框和大边界框中的误差是一样的。大box里的小错误通常是良性的，但小box里的小错误对IOU的影响要大得多。错误主要来源于定位错误。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记之YOLO

1. YOLOv11.1介绍You Only Look Once，顾名思义，你只需要看一次就知道这个图中的object，这也符合人眼的逻辑。YOLO将物体检测直接当做一个回归问题来处理，直接通过神经网络，输入图片，输出object的边界框坐标以及类别。YOLO的特点是速度非常快，精度不太高。1.2 总体流程1）将图像resize到固定大小作为神经网络的输入2）深度神经网络处理后输出框坐...
复制链接

扫一扫

专栏目录

To_1_oT CSDN认证博客专家 CSDN认证企业博客

码龄7年

80: 原创

5万+: 周排名

86万+: 总排名

18万+: 访问

: 等级

1969: 积分

100: 粉丝

192: 获赞

57: 评论

878: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文笔记之ST-GCN
不好起啥名: 这个有用softmax分类器吗，我在代码里没找到
论文笔记之ACTION-Net: Multipath Excitation for Action Recognition
gls1234567: 我也一样
论文笔记之C3D（Learning Spatiotemporal Features with 3D Convolutional Networks）
yukikaze481: 你好，卷积层应该没有使用padding吧？我计算的后发现只有卷积层使用了padding=1，为了使输入输出大小一致。而池化层不不使用padding的话，经过5次池化，时间方向刚好为1帧，能够进入fc层。不知我的计算是否正确？
论文笔记之ICAN
To_1_oT: 视频切成图片进行推理，推理结果可视化后再组合成视频，opencv应该是有相关的库的
论文笔记之ICAN
wfff11: 请问该代码中有一段很长时间的视频效果展示，但是自己验证只能是图片，怎么能做到验证视频呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。