YOLO v3学习总结

最新推荐文章于 2024-05-23 11:32:13 发布

aift

最新推荐文章于 2024-05-23 11:32:13 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习（DL）计算机视觉（CV）

本文链接：https://blog.csdn.net/ft_sunshine/article/details/98692016

版权

深度学习（DL）同时被 2 个专栏收录

37 篇文章 36 订阅

订阅专栏

计算机视觉（CV）

19 篇文章 7 订阅

订阅专栏

别的不说，YOLOv3的论文确实是有意思呀，读论文感觉着实又被大佬虐了一把，强烈推荐阅读。

YOLOv3没有太多的创新，主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

正如作者所说，这仅仅是他们近一年的一个工作报告（TECH REPORT），不算是一个完整的paper，因为他们实际上是把其它论文的一些工作在YOLO上尝试了一下。相比YOLOv2，我觉得YOLOv3最大的变化包括两点：使用残差模型和采用FPN架构。YOLOv3的特征提取器是一个残差模型，因为包含53个卷积层，所以称为Darknet-53，从网络结构上看，相比Darknet-19网络使用了残差单元，所以可以构建得更深。另外一个点是采用FPN架构（Feature Pyramid Networks for Object Detection）来实现多尺度检测。YOLOv3采用了3个尺度的特征图（当输入为 $416 \times 416$ 时）： $13 \times 13)$ ， $26 \times 26)$ ， $52 \times 52)$ ，VOC数据集上的YOLOv3网络结构如下图所示，其中红色部分为各个尺度特征图的检测结果。YOLOv3每个位置使用3个先验框，所以使用k-means得到9个先验框，并将其划分到3个尺度特征图上，尺度更大的特征图使用更小的先验框，和SSD类似。

Darknet-53：
在这里插入图片描述
YOLOv3网络结构示意图：

YOLOv3与其它检测模型的对比如下图所示，可以看到在速度上YOLOv3完胜其它方法，虽然AP值并不是最好的（如果比较AP-0.5，YOLOv3优势更明显）

在这里插入图片描述
从YOLO的三代变革中可以看到，在目标检测领域比较好的策略包含：设置先验框，采用全卷积做预测，采用残差网络，采用多尺度特征图做预测。期待未来有更好的策略出现。

done~

References

https://zhuanlan.zhihu.com/p/35325884
https://www.jianshu.com/p/d13ae1055302
https://www.jianshu.com/p/67163d52946f

aift

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
YOLO v3学习总结

别的不说，YOLOv3的论文确实是有意思呀，读论文感觉着实又被大佬虐了一把，强烈推荐阅读。YOLOv3没有太多的创新，主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。正如作者所说，这仅仅是他们近一年的一个工作报告（TECH REPORT），不算是一个完整的paper，因为他们实际上是把其它论文的一些工作在YO...
复制链接

扫一扫