YOLOV3详解

最新推荐文章于 2024-08-05 18:41:17 发布

小魏612

最新推荐文章于 2024-08-05 18:41:17 发布

阅读量457

点赞数

文章标签： YOLO 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62945476/article/details/130718947

版权

文章介绍了DarkNet53作为YOLOv3的主干网络结构，包括DBL基本单元，残差模块resn，以及FPN层如何实现多尺度目标检测。损失函数部分详细阐述了为何使用均方误差和二值交叉熵，并提到源码中xy损失函数也采用了二值交叉熵。

摘要由CSDN通过智能技术生成

主干网络

主干网络（backbone）：DarkNet53（没有全连接层，所以YOLOv3只用了前52层），基本单元：DBL（卷积+BN+Leaky Relu），大组件：resn。

52 = 1+1+1*2+1+2*2+1+8*2+1+8*2+1+4*2

图片尺寸计算公式：（N-K+2P）/S+1 P：边缘填充方式，S：步长。通过backbone后图片尺寸变成原尺寸的1/32，所以一般要求输入图片尺寸为32的倍数。

BN层：引入可学习的缩放和平移参数，使得均值和方差可以调整到合适的值，通过反向传播优化参数。

Leaky Relu：增加模型的非线性特征提取能力，便于区分目标和背景。

残差模块resn：n表示包含几个res（残差块），res前面的DBL的作用为降采样，使用核为3*3，步长为2的卷积块，代替池化层。

res结构：第一个DBL的卷积为1*1卷积块，第二个为3*3卷积块。
add操作：将经过两次DBL操作后的数据与原始数据直接相加，不会改变张量维度。

FPN（feature pyramid network）

concat：张量拼接。将DarkNet中间层与后面的某一层的上采样进行拼接。会扩充张量的维度。

上采样：通过插值法（最邻近插值），yolov3采用的是转置卷积的方式。

通过FPN层使得输出为3个不同尺度的feature map，实现检测不同size的目标。

损失函数

包括四类：左上角坐标（x,y),(w,h),class,confidence

坐标损失函数采用均方误差（MSE），其他采用二值交叉熵（BCE）。

二值交叉熵：处理二值分类任务。 yi为目标值，yi帽为预测值。两者越接近loss越小。

坐标采用均方误差的原因：边界尺寸为连续值，均方误差可以对连续差异提供平滑的梯度信号。

类别预测和置信度预测采用二值交叉熵的原因：这两个都是离散值，二值交叉熵可以比较预测值和真实值的二元关系，提高明确的梯度信号。

但是源码中xy的损失函数也是采用二值交叉熵函数，效果较好。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小魏612 CSDN认证博客专家 CSDN认证企业博客

码龄3年

20: 原创

107万+: 周排名

209万+: 总排名

3万+: 访问

: 等级

244: 积分

9: 粉丝

32: 获赞

2: 评论

172: 收藏

私信

关注

热门文章

最新评论

conda虚拟环境常用命令
CSDN-Ada助手: 恭喜您写了第20篇博客！对于conda虚拟环境的常用命令，您的分享让我受益匪浅。希望您能继续保持创作的热情，不断分享更多关于conda虚拟环境的知识和经验。同时，我建议您可以尝试写一些实战经验，结合具体的案例来讲解conda虚拟环境的使用，这样会更加生动有趣。期待您的更多精彩内容！
无序链表合并
CSDN-Ada助手: 恭喜您写完了第19篇博客，标题为“无序链表合并”。阅读了您的博客后，我对您对于链表合并的理解和应用能力表示钦佩。您的文章内容清晰明了，让我对无序链表合并有了更深入的了解。不过，如果您愿意的话，我想提供一个创作建议：可以进一步探讨一下在合并过程中如何处理重复元素，或是比较不同的合并算法，这样将更丰富您的博客内容。期待您在下一篇博客中的精彩发表！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。