2018-CVPR -Scale-Transferrable Object Detection 论文笔记

1. 要做的事情

object detection

2. 提出的网络架构

3. 里面的参数

4. scale-transfer module

如下图所示:

5. detection

使用的是和SSD算法一样的思想:

5.1 SSD算法:

一种直接预测bounding box的坐标好类别的object detection算法,没有生成proposal的过程。针对不同大小的物体检测,传统的做法是将图像转换成不同的大小,然后分别处理,最后将结果综合起来。ssd利用不同卷积层的feature map进行综合也能达到同样的效果。

SSD方法基于前馈卷积网络,该网络产生固定大小的边界框集合,并对这些边界框中存在的目标类别实例进行评分,然后进行非极大值抑制步骤来产生最终的检测结果。

5.2 名词的概念

5.2.1 feature map cell:

feature map 中的每一个小格子,如下图,b图中有64个cell。

5.2.2 default box:

在每一个feature map cell都有固定大小的box,如图b,在object猫的位置上有四个box

5.2.3 prior box:

在真正训练中实际用到的default box,也就是说,prior box 小于等于default box。不是每一个feature cell的default box都会被选择。

5.3 训练

        假设, 每个feature 假设每个feature map cell有k个default box,那么对于每个default box都需要预测c个类别score和4个offset,那么如果一个feature map的大小是m×n,也就是有m*n个feature map cell,那么这个feature map就一共有(c+4)*k * m*n 个输出。

          这些输出个数的含义是采用3×3的卷积核对该层的feature map卷积时卷积核的个数,包含两部分(实际code是分别用不同数量的3*3卷积核对该层feature map进行卷积):

数量c*k*m*n是confidence输出,表示每个default box的confidence,也就是类别的概率;

数量4*k*m*n是localization输出,表示每个default box回归后的坐标)。

        训练中一张完整的图片送进网络获得各个feature map,对于正样本训练来说,需要先将prior box与ground truth box做匹配,匹配成功说明这个prior box所包含的是个目标,但离完整目标的ground truth box还有段距离,训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。

通过NMS得到不断地筛选bounding box。

5.4 loss function

 

6. 结果

6.1 在VOC2007上的结果

6.2 在coco上的结果

 

7. 我的想法:

总的来说,和SSD的思路差不多,最重要的是提出了一个scale layer。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值