YOLOv1, SSD

最新推荐文章于 2025-03-27 16:39:32 发布

techping

最新推荐文章于 2025-03-27 16:39:32 发布

阅读量680

点赞数

分类专栏：深度学习文章标签：深度学习神经网络物体检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/techping/article/details/81041254

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

本文总结了YOLOv1和SSD两种物体检测框架。YOLOv1通过神经网络进行物体检测，但存在网格划分粗糙等问题。SSD通过多尺度convolutional feature layer改进了这一问题，提高了mAP。两者都是End-to-End的检测网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLOv1, SSD

今年四月份的时候，在一个研究院实习时学习了YOLOv1, SSD系列Object Detection框架，现在总结一下。关于R-CNN系列框架的总结在上一篇blog。

一. YOLOv1(You Only Look Once)

1.1 框架结构

yolo-1

首先将图片调整为 $448 \times 448$ 大小;
运行神经网络(其中包括选取region proposal以及target confidence和coordinate输出);
nms(Non-max Suppression, 非极大值抑制), 用于后续bounding-box的选取(选取置信度高且不重复的方框).

yolo-2

系统将输入图片分成 $S \times S$ 个grid, 物体中心所在的grid负责检测这个物体. 每一个grid预测B个Bounding-box(边框)和Confidence Scores(置信度). 置信度的定义为:

P r (O b j e c t) * I O U t r u t h p r e d

$Pr(Object) * IOU_{pred}^{truth}$

其中的IOU定义为:

iou

I O U (i n t e r s e c t i o n o v e r u n i o n) = 两 个 矩 形 的 交 集 面 积 两 个 矩 形 的 并 集 面 积

$IOU(intersection\;over\;union) = \frac{两个矩形的交集面积}{两个矩形的并集面积}$

每一个Bounding-box包括5个预测数值: 坐标x, y, w, h与置信度confidence.
每一个grid同时预测C种种类的概率 $Pr(Class_i | Object)$ .
最后, 我们把一个grid是C种中的一种的概率和置信度相乘, 可以得到一个grid是特定种类物体的概率:

P r (C l a s s i | O b j e c t) * P r (O b j e c t) * I O U t r u t h p r e d = P r (C l a s s i) * I O U t r u t h p r e d

$Pr(Class_i | Object) * Pr(Object) * IOU_{pred}^{truth} = Pr(Class_i) * IOU_{pred}^{truth}$

1.2 神经网络结构

yolo-net

1.3 缺点

YOLOv1 有两个主要明显的缺点:

输入图像分割成 $S \times S$ , S取7有点粗糙, 导致后续边框回归不太准确;
每一个grid只预测一种物体, 不能预测一个grid有多种物体的情况.

针对这些, SSD和后续YOLOv2, YOLOv3有所改进.

二. SSD(Single Shot Multibox Detector)

2.1 框架结构

ssd

SSD只需要一张输入图片和ground truth框就可以开始训练. 可以把图片分成不同的scale(如 $8 \times 8$ 或者 $4 \times 4$ ), 然后选取不同的aspect ratio(纵横比). 每一个box预测方块offset和每种类的置信度.

2.2 神经网络结构

ssd-net

2.2.1 YOLOv1与SSD网络的对比

SSD相比于YOLOv1, 在基本网络后面增加了好几层多尺度convolutional feature layer, 用于定位面积更小的物体, mAP提高了.

三. 总结

conclusion

YOLOv1, SSD和Faster R-CNN一样都是End-to-End网络了.

References

[1] Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadi. (2016). You Only Look Once: Unified, Real-Time Object Detection.

[2] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. (2016). SSD: Single Shot MultiBox Detector.

我的个人主页：http://www.techping.cn/
我的CSDN博客：http://blog.csdn.net/techping
我的简书：http://www.jianshu.com/users/b2a36e431d5e/
我的GitHub：https://github.com/techping

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。