YoloV3———— 简单理解+回顾

达柳斯·绍达华·宁

已于 2024-08-13 21:11:02 修改

阅读量971

点赞数 24

文章标签： YOLO

于 2024-08-13 21:10:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55794606/article/details/141167448

版权

本文部分内容转载于：【YOLO系列】YOLOv3论文超详细解读（翻译＋学习笔记）-CSDN博客

YoloV3在前作的基础上提升了准确性，虽然一定程度上增大了网络，但更加稳定，且仍旧很快。

Bounding Box Prediction

在YOLOv3 中，利用逻辑回归来预测每个边界框的客观性分数( object score )，也就是YOLOv1 论文中说的confidence :

● 正样本：如果当前预测的包围框比之前其他的任何包围框更好的与ground truth对象重合，那它的置信度就是 1。

● 忽略样本：如果当前预测的包围框不是最好的，但它和 ground truth对象重合了一定的阈值（这里是0.5）以上，神经网络会忽略这个预测。

● 负样本: 若bounding box 没有与任一ground truth对象对应，那它的置信度就是 0

使用这种方法，意味着prior box 的预测变为是或不是，也就是一个二分类问题，如果像YOLOv1使用bounding box与ground truth对象的IOU作为confidence，那么confidence score始终很小，无法有效学习，导致检测的Recall不高。

Class Prediction

取消使用softmax函数，改用binary cross-entropy loss

原因：对于softmax函数，一个目标只能有一种标签，例如只能是“women”或“person” 实际上，可以是既是women 还是 person；使用binary cross-entropy loss则变成了对于某个标签 “是 or 不是”

Predictions Across Scales

（1）YOLOv3采用了3个不同尺度的特征图（三个不同卷积层提取的特征）

YOLOv3通过下采样32倍、16倍和8倍得到3个不同尺度的特征图。

例如输入416X416的图像，则会得到13X13 (416/32)，26X26(416/16) 以及52X52(416/8)这3个尺度的特征图。

（2）YOLOv3每个尺度的特征图上使用3个anchor box。

使用dimension clusters得到9个聚类中心（anchor boxes），并将这些anchor boxes划分到3个尺度特征图上，尺度更大的特征图使用更小的先验框。

（3）YOLOv3对每个尺度下的特征图都进行边界框的预测。

每种尺度的特征图上可以得到N × N × [3 ∗ (4 + 1 + 80)] 的结果（分别是N x N个 gird cell ，3种尺度的anchor boxes，4个边界框偏移值、1个目标预测置信度以及80种类别的预测概率。）

该方法允许从上采样的特征中获取更有意义的语义信息，从早期的特征图中获取更细粒度的信息。

Feature Extractor

YoloV3在YoloV2和Darketnet-19结合，设计了一个新的网络，命名为Darknet-53

该网络达到了近似于ResNet-101的效果并且效率更高（ResNet实在是太多层，所以效率低）：

Train

上表中，在AP50这一指标上与SOTA很相近，也就是IOU=0.5情况下，YoloV3表现很好，证明了YoloV3非常善于为目标绘制bounding box ，但是不够精准。

同时，YoloV2在处理小目标上效果较差，但现在YoloV3处理能力很强，得益于多尺度特征。

YoloV3速度仍旧很快！！

达柳斯·绍达华·宁

关注

24
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

达柳斯·绍达华·宁 CSDN认证博客专家 CSDN认证企业博客

码龄4年

41: 原创

1万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1137: 积分

507: 粉丝

723: 获赞

5: 评论

619: 收藏

私信

关注

热门文章

分类专栏

BEV学习 9篇
Lane Detecion 5篇

最新评论

（Re-ID论文精读）PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification
达柳斯·绍达华·宁: 感谢提问，解释如下：利用PASS预训练的模型，是直接可以用来REID的，作者后来利用TransREIDd的训练策略，对VIT进行微调，然后直接与监督 REID对比；在UDA/USL 数据集上训练了50epoch ,去与其对比
（Re-ID论文精读）PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification
2301_78254088: 请问一下，经过PASS预训练的模型是不是直接可以用来reid了，后面实验结果是和先进的监督reid以及uda/usl reid方法进行对比，可是为什么pass又能应用在监督reid 和uda/usl reid中呢？请大佬解惑，这点是真不明白，在我看来pass不是和上面三种方法互斥的吗
模型部署04 CMake 和 Vscode 设置
CSDN-Ada助手: 恭喜您发布了新的博客“模型部署04 CMake 和 Vscode 设置”，内容看起来非常实用和有趣！继续保持创作的热情和努力，我期待看到更多关于模型部署的相关内容。或许在下一篇博客中，您可以分享一些实际案例或者应用场景，让读者更好地理解和应用您所讲述的内容。加油哦！期待您的下一篇作品。
模型部署01 vscode 环境配置c++ python
全栈小5: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文【模型部署01 vscode 环境配置c python，博主这篇文章，值得一看】
模型部署01 vscode 环境配置c++ python
CSDN-Ada助手: 恭喜您发布了第5篇博客！看来您对模型部署和编程领域有着深厚的兴趣和研究。接下来，或许您可以尝试分享一些实践经验或者案例分析，让读者更好地理解您的研究成果。期待您更多的精彩作品！祝您创作愉快！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。