SSD细节—— default box与prior box

最新推荐文章于 2023-05-10 16:18:52 发布

mljsuc

最新推荐文章于 2023-05-10 16:18:52 发布

阅读量1.6k

点赞数

分类专栏：目标检测文章标签： SSD

目标检测专栏收录该内容

12 篇文章

订阅专栏

二者都是指feature map cell上固定数量的box，并不是有些文章说的prior是从default挑选出来的。论文里写的default box，代码里用了prior box。

论文中说边框回归类似faster rcnn，那代码里prior的4个variance又是什么? 解释如下：

SSD的检测值也与Yolo不太一样。对于每个单元的每个先验框，其都输出一套独立的检测值，对应一个边界框，主要分为两个部分。第一部分是各个类别的置信度或者评分，值得注意的是SSD将背景也当做了一个特殊的类别，如果检测目标共有个类别，SSD其实需要预测个置信度值，其中第一个置信度指的是不含目标或者属于背景的评分。后面当我们说个类别置信度时，请记住里面包含背景那个特殊的类别，即真实的检测类别只有个。在预测过程中，置信度最高的那个类别就是边界框所属的类别，特别地，当第一个置信度值最高时，表示边界框中并不包含目标。第二部分就是边界框的location，包含4个值，分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值(paper里面说是offset，但是觉得transformation更合适，参见R-CNN)。先验框位置用表示，其对应边界框用 $表示，那么边界框的预测值其实是相对于的转换值：

习惯上，我们称上面这个过程为边界框的编码（encode），预测时，你需要反向这个过程，即进行解码（decode），从预测值中得到边界框的真实位置：

然而，在SSD的Caffe源码实现中还有trick，那就是设置variance超参数来调整检测值，通过bool参数variance_encoded_in_target来控制两种模式，当其为True时，表示variance被包含在预测值中，就是上面那种情况。但是如果是False（大部分采用这种方式，训练更容易？），就需要手动设置超参数variance，用来对的4个值进行放缩，此时边界框需要这样解码：

$b^{cx}=d^w (variance[0]*l^{cx}) + d^{cx}, \space b^{cy}=d^y (variance[1]*l^{cy}) + d^{cy}$

$b^{w}=d^w \exp(variance[2]*l^{w}), \space b^{h}=d^h \exp(variance[3]*l^{h})$

另外，关于conv4_3 做norm的原因：

VGG16中的Conv4_3层将作为用于检测的第一个特征图。conv4_3层特征图大小是 38X38 ，但是该层比较靠前，其norm较大，所以在其后面增加了一个L2 Normalization层（参见ParseNet），以保证和后面的检测层差异不是很大，这个和Batch Normalization层不太一样，其仅仅是对每个像素点在channle维度做归一化，而Batch Normalization层是在[batch_size, width, height]三个维度上做归一化。归一化后一般设置一个可训练的放缩变量gamma。

(引自 https://blog.csdn.net/c20081052/article/details/80391627 ）