SSD:Single Shot MuiltiBox Dectector论文阅读
实时one-stage目标检测:端到端训练,比YOLO更快但准确度和Faster RCNN相当
预测类别分数和相对于gt box的位置偏移
在不同层级的feature map预测不同宽高比DBox(Default Box,类似于archor),以检测不同形状和宽高比的物体
网络架构
VGG结构加多层feature map预测,以conv5为例,对feature map的每一个像素点设定不同框宽高比的DBox,预测过程就是预测这些DBox与BBox的位置偏差,以及当前DBox中存在什么样的物体
训练过程
训练过程的关键是怎么将原图中的BBox与feature map 中的DBox 对应起来并给出相应的位置偏移损失与置信度损失。
在具体操作时,首先将每一个BBOx的坐标归一化到[0,1],然后在不同的feature map上直接与当前同样归一化的DBox相比较即可。
DBox具体设置
对每一个feature map上的每个cell,都会定义不同大小和宽高比的K个DBox,对于每一个DBox
都预测c+4个值,c为要预测的种类数加一,4表示坐标位置。当预测时,对于一个H*W的feature map,使用3x3的卷积核输出k(c+4)个通道的值,用这些值与对应的BBox进行匹配与计算误差
DBox个数及大小选择:是可调整的超参数,我们对于不同层级的feature map,选择[0.2,0.9]之间等差数列为大小size,因为后面的feature map 更倾向于预测大的物体;我们选择6个宽高比为{1,2,3,1/2,1/3}的Box以及 s = s ∗ s + 1 s= \sqrt{s*s+1} s=s∗s+1 作为DBox的宽高
DBox坐标的设置:若当前特征图为[H,W],我们设置每一个[i,j]处DBox的中心为 ( i + 0.5 H , j + 0.5 W ) ( \frac{i+0.5}{H},\frac{j+0.5}{W}) (Hi+0.5,Wj+0.5)
其实这些DBox设置都是根据只管来的,也可以设置更好的DBox
DBox与BBox的匹配策略
现在我们在每一个feature map上都得到了一堆DBox,BBox,下面讲解怎么将其进行匹配:
对每一个DBox,只要其IOU与一个BBOx超过0.5(且是最大IOU的BBox),我们将其配对,这样一个BBox可能与多个DBox进行配对,其余的分为负样本
网络预训练
原文中网络是根据VGG16的模型参数进行训练,使用一直到conv5_3的参数,将原文中pool5层改为size3,stride1的卷积,然后使用空洞卷积来适应之后的维数,其中conv6和conv7的参数分别是从原VGG16中fc6和fc7的参数中采样而来,(暂时还不知道为什么这么做)
Loss计算过程
Loss分为置信度损失(softmax)和位置损失(smoothL1),
x
i
j
p
=
1
x_{ij}^p=1
xijp=1表明第i个DBox与第j个BBox匹配成功且类别为p。N为正样本的数目。则:
L
(
x
,
c
,
l
,
g
)
=
1
N
(
L
c
o
n
f
(
x
,
c
)
+
α
L
l
o
c
(
x
,
l
,
g
)
)
L(x,c,l,g) = \frac{1}{N}(L_{conf}(x,c) + \alpha L_{loc}(x,l,g))
L(x,c,l,g)=N1(Lconf(x,c)+αLloc(x,l,g))
Hard negative mining
由于一个图片中的目标很少,会导致负样本比较多,从而带来类别不平衡问题,我们将负样本按照其置信度损失排序,选择损失较高的一些作为实际的负样本,一般来说:负:正=3:1
数据增强策略
- 使用原始的图像
- 在图像上进行裁剪使得新的图片对目标框的IOU为[0.1,0.3,0.5,0.7,0.9]
- 随机进行裁剪
每一个新图像的大小为[0.1,1],宽高比为[0.5,2],采样后对图像块进行resize,以0.5概率进行左右翻转,然后应用一般的图像像素级别变形。
网络测试
我们对一张图片预测出的框以置信度损失阈值(0.01)进行筛选,然后进行非极大值抑制来得到结果
一些其他的结论
- 对于小的目标表现不好
- 对于相似的类别表现不好
- 数据增强的策略非常重要
- 设置更多的输出层进行预测会更好
- 更多的DBox形状会更好
- 使用atrous策略会更快
- 512的输入比300更好
针对小目标的数据增强
- 将图像边缘进行扩充(一般来说以均值方式)然后resize,放入训练
- 设置更好的DBox