SSD算法

最新推荐文章于 2024-08-12 14:50:42 发布

Walter Wu

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量294

点赞数

分类专栏：检测算法

本文链接：https://blog.csdn.net/qq_38284961/article/details/104674413

版权

检测算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

SSD: Single Shot MultiBox Detector

文中贡献

在feature map上使用小卷积预测类别分数，并且预测box的偏移值。
使用不同尺度的feature map进行预测。

文中结构

ssd 的输入是一个图片以及bounding box

不同尺度以及不同比例的预选框，对每一个预选择框，预测出偏移以及类别概率。

在训练阶段，首先匹配预选框与groudtruth，将一个认为是positive 其他的认为是negtive。最后的loss是local loss以及类别loss的加权平均。

模型结构详解

前向传播的卷积网络，产生多个bounding boxes以及score。然后使用极大抑制来做这件事。

多尺度featuremap 检测：

在网络的末端增加卷积特征层，这个层从尺度上是递减的，可以实现多尺度检测预测，进行检测的卷积模型是不同的对于每个特征层。

检测卷积预测：

每一个卷积层能够产生固定的预测，这些预测放到base model的头部。对于一个大小为m*n，channel数为p的特征层中，是一个3*3*p的小kernel产生类别以及bounding box偏移，然后产生了输出的值。其中偏移值和预选框的位置息息相关。

预选框和概率：

每个feature map的cell都设定了预选框，对每一个feature map cell预测预选择框偏移值。对于一个m*n的feature maps输出维度为（c+4）kmn，其中c表示类别的数量，k表示预选框的数量，m*n表示feature map的大小。

训练

match 策略

在训练阶段需要知道哪一个预选框，被选择出来用来训练模型。对每一个groud truth计算其余default box的jaccard overlap，给定一个阈值0.5，然后将这些框可以送入模型训练。

训练目标函数

首先给出定义

表示p类别第i个预选框与第j个Groud-truth表示

目标函数表示定位loss以及置信度loss

N表示匹配后的预选框的数量。Location loss 使用Smooth L1 loss，其中回归的值如下

预备选框d的中心位置为(cx, cy)，以及长宽w, h。predict box 为l，groud truth box 为g,

其中其中alpha 可以设置为1

选择预选框尺度以及纵横比

为了处理不同目标尺度，一些方法处理图像使用不同的size大小，同时将输出结果combine，使用不同feature map也能够获得较好的效果。

使用m feature maps进行预测。对每个feature map预选框计算如下

其中smin表示0.2， smax为0.9，意味着最低层的有0.2尺度，最高层的有0.9尺度。

定义不同的纵横比对预选框，{1, 2, 3, 1/2, 1/3}

计算宽度

计算高度

对于ratio 1我们能够有一个defaut box，它的scale 是

将每个预选框的中心变成

其中|fk| 是第k个方形的feature map的大小。其中

通过结合对所有不同尺度以及纵横比预选框，我们有一系列的针对目标大小以及形状的预测，例如在图1中，狗的预备选框的匹配是在4*4的feature map上，但是在8*8 feature map上并不能找到相应的预选框。主要是因为这些框有不同的尺度不能够匹配到狗的框，这些在训练的时候都被考虑成消极框。

Hard negative mining

经过match 阶段之后大多数的预选框是消极的，尤其是可能性预选框数量较大。这就有了显著的不平衡在积极和消极的训练实例中。为了不使用所有的消极预选框，对每一个预选框使用最高的置信度loss，并且选择置信度最高的部分。这样使得消极和积极的比例能够在3：1这样能够更快的优化以及更稳定的训练。

附言详解

每一个feature maps上location cell的预选框的数量不同。Prior box 尺寸是s，宽高比例为1，2，0.5三个，那么每个预选框的大小就变成了w=s*sqrt(r), h=s/sqrt(r)

Walter Wu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录