YOLOv3细节

最新推荐文章于 2023-06-08 15:56:49 发布

ljc_coder

最新推荐文章于 2023-06-08 15:56:49 发布

阅读量133

点赞数

文章标签：深度学习机器学习聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52785249/article/details/125081800

版权

本文详细介绍了YOLOv3模型的输出结构，包括8x8x3x85、16x16x3x85、32x32x3x85三个不同尺度的特征图，每个包含检测框位置、置信度和80类别的概率。先验框通过k-means聚类得到，类别置信度使用sigmoid解码。训练策略中，损失函数是关键，同时在推理时，低置信度的框会被过滤，仅保留高置信度的框进行非极大值抑制。

摘要由CSDN通过智能技术生成

YOLOv3细节

输出
先验框
类别置信度
训练策略
损失函数
总结

输出

输出最终的三个特征图为8x8x3x85、16x16x3x85、32x32x3x85
其中8x8是特征图维度大小（上面三个不同的值代表不同的尺度）；3是代表3种先验框；85包括：检测框位置（4维）、检测置信度（1维）、类别（80维）

先验框

使用 k-means 对训练集的标签框进行聚类，得到类别中心点的坐标作为先验框
有了先验框和输出特征图，就可以得到下图中调整后框的位置

类别置信度

置信度可以直接通过sigmoid函数解码，将其划分到0、1之间，
※ 在推理时，不需要那么多先验框，因此置信度低于阈值的框会直接被过滤掉，只有置信度高于阈值的框会进入到NMS，来确定置信度最高的框
类别方面是对80个类别，每个进行sigmoid函数解码（传统的使用softmax函数，各个类别是互斥的，但是这里使用sigmoid，一张图就可以有多个类别）

训练策略

在这里插入图片描述

损失函数

在这里插入图片描述

总结

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。