SSD

最新推荐文章于 2024-06-30 13:49:46 发布

dekiang

最新推荐文章于 2024-06-30 13:49:46 发布

阅读量221

点赞数

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/108931908

版权

55 篇文章 17 订阅

订阅专栏

1. 概述

SSD的整体架构借鉴了YOLOv1，即，直接在特征图上输出物体的类别和位置。与YOLOv1不同的是，SSD引入了Faster R-CNN中的anchor机制，并且去掉了YOLOv1的全连接层，采用卷积层进行预测。

SSD最大的贡献就是引入多尺度特征预测

以去除全连接层的VGG16作为backbone，并在后面添加一系列的卷积，得到6个不同大小的预测特征图（conv4、conv7~conv11），对于每一个预测特征图，采用 $3\times3$ 的卷积核做预测，在特征图的每一个位置输出 $(c + 4) k$ 维向量， $k = 4$ 是每个位置的anchor数量，c是类别数（包含背景类）。
SSD中用于最后分类和回归的特征图是同一个特征图，这就会产生分类特征和回归特征的耦合，因为分类任务更加关注目标的重点区域，而回归任务更加关注目标的边界区域，这两者所提取的特征是不一致的。后续RetinaNet使用分类分支和回归分支的方法，可以减少分类特征和回归特征之间的耦合性。

$s_k$ 是第 $k$ 层特征图上的anchor映射到原图之后，占原图大小的比例。假设原图大小为 $300\times300$ ，特征图大小为 $8\times8$ ，该特征图上的anchor尺寸占原图尺寸的比例为 $s_k=0.6$ ，则该特征图的anchor尺寸为 $180\times180$ 。从公式（4）看出，显然每层anchor的面积是线性递增的。浅层特征图的anchor面积小，适合用来检测小物体；深层特征图的anchor面积大，适合用来检测大物体。

在这里插入图片描述

	正样本	负样本
描述	表示该anchor负责预测某个gt，即含有object	表示该anchor不负责预测任何gt，即不含有object
准则	（1）对于每个gt，选择与其IoU最大的anchor：保证所有的gt至少有一个anchor负责预测它。（2）若某个anchor与任何一个gt的IoU大于0.5，则为positive	otherwise
作用	用于多分类和边界框回归	用于多分类

注：与RPN的区别是没有设置忽略样本。