1. 要做的事情
object detection
2. 提出的网络架构
3. 里面的参数
4. scale-transfer module
如下图所示:
5. detection
使用的是和SSD算法一样的思想:
5.1 SSD算法:
一种直接预测bounding box的坐标好类别的object detection算法,没有生成proposal的过程。针对不同大小的物体检测,传统的做法是将图像转换成不同的大小,然后分别处理,最后将结果综合起来。ssd利用不同卷积层的feature map进行综合也能达到同样的效果。
SSD方法基于前馈卷积网络,该网络产生固定大小的边界框集合,并对这些边界框中存在的目标类别实例进行评分,然后进行非极大值抑制步骤来产生最终的检测结果。
5.2 名词的概念
5.2.1 feature map cell:
feature map 中的每一个小格子,如下图,b图中有64个cell。
5.2.2 default box:
在每一个feature map cell都有固定大小的box,如图b,在object猫的位置上有四个box
5.2.3 prior box:
在真正训练中实际用到的default box,也就是说,prior box 小于等于default box。不是每一个feature cell的default box都会被选择。
5.3 训练
假设, 每个feature 假设每个feature map cell有k个default box,那么对于每个default box都需要预测c个类别score和4个offset,那么如果一个feature map的大小是m×n,也就是有m*n个feature map cell,那么这个feature map就一共有(c+4)*k * m*n 个输出。
这些输出个数的含义是:采用3×3的卷积核对该层的feature map卷积时卷积核的个数,包含两部分(实际code是分别用不同数量的3*3卷积核对该层feature map进行卷积):
数量c*k*m*n是confidence输出,表示每个default box的confidence,也就是类别的概率;
数量4*k*m*n是localization输出,表示每个default box回归后的坐标)。
训练中一张完整的图片送进网络获得各个feature map,对于正样本训练来说,需要先将prior box与ground truth box做匹配,匹配成功说明这个prior box所包含的是个目标,但离完整目标的ground truth box还有段距离,训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。
通过NMS得到不断地筛选bounding box。
5.4 loss function
6. 结果
6.1 在VOC2007上的结果
6.2 在coco上的结果
7. 我的想法:
总的来说,和SSD的思路差不多,最重要的是提出了一个scale layer。