12.SSD 论文总结

SSD : YOLO 的改进,性能基本和 Faster RCNN 持平

主要思路就是Faster R-CNN + YOLO,利用YOLO的思路 和 Faster R-CNN的anchor box的思想。

关键:use of multi-scale convolutional bounding box outputs attached to multiple feature maps at the top of the network (有效地建模可能的box空间形状

discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales
per feature map location.(对每个特征图 ,
将边界框的输出空间离散为不同纵横比和尺度的一组默认框

在特征图上预先声明好很多box,你最后要得到的bounding box就是从已经声明好的box里挑出来的,当然不是直接拿来就用,而是把挑到的box进行调整。这些预先设定的box形态各异,因为图片上的物体有各种形状,为了使得能更快的更精确的调整box使其能与图片上的物体的形状更吻合,所以先设定长宽比例不同的box
 

完全消除了建议生成和后续的像素或特征重采样阶段,并将所有计算封装在单个网络中。

该论文采用 VGG16 的基础网络结构,使用前面的前 5 层,然后利用 astrous 算法将 fc6 和 fc7 层转化成两个卷积层。再额外增加了 3 个卷积层,和一个 average pool层。不同层次的 feature map 分别用于 default box 的偏移以及不同类别得分的预测(惯用思路:使用通用的结构(如前 5个conv 等)作为基础网络,然后在这个基础上增加其他的层),最后通过 nms得到最终的检测结果。

YOLO,后面存在两个全连接层,全连接层以后,每一个输出都会观察到整幅图像,并不是很合理。但是SSD去掉了全连接层,每一个输出只会感受到目标周围的信息,包括上下文。这样来做就增加了合理性。并且不同的feature map,预测不同宽高比的图像,

在SSD中如果有多个ground truth,每个anchor(default box)会选择对应到IOU最大的那个ground truth。一个anchor只会对应一个ground truth,但一个ground truth都可以对应到大量anchor,这样无论两个ground truth靠的有多近,都不会出现YOLO中bbox冲突的情况。
 

 

SSD 模型 主要是在 base network(完成分类) 之后 添加  辅助结构 来 完成检测

辅助结构:一系列的卷积

                  特征图逐渐减小,可以在多个尺度上预测检测

                  后来添加的每个特征图(和之前 base network 的特征图)能 使用一组卷积滤波器 产生一组固定的检测结果

  1. 如何在多个尺度上预测检测?    将一组默认的边框与每个feature map单元关联起来。默认框以卷积的方式平铺feature map,这样每个框相对于其对应的单元格的位置是固定的。在每个feature map单元格中,我们预测相对于单元格中的默认框形状的偏移量,以及表示每个框中存在类实例的每个类的得分  (We design the tiling of default boxes so that specific feature maps learn to be responsive to particular scales of the objects  特定的 feature maps 学习对 目标的特定比例做出响应)     待解决:How to design the optimal tiling ????
  2. 默认的边框?   我们的默认框类似于Faster R-CNN 中使用的anchor boxes,将它们应用于不同分辨率的几个feature map。允许在多个feature map中使用不同的默认框形状,可以有效地离散可能的输出框形状的空间
  3. 到底哪些默认框对应于真实的检测?(匹配策略)  对于每个真正的框,我们从默认的框中进行选择,这些默认框随位置、纵横比和比例的不同而变化。 我们首先将每个ground truth框与具有最佳jaccard重叠的默认框进行匹配 。 我们将默认框与任何jaccard重叠大于阈值(0.5)的ground truth匹配。 这简化了学习问题,允许网络预测多个重叠默认框的高分,而不是要求它只选择重叠最大的一个。
  4. 不符合的默认框数量太多造成训练样本失衡怎么办 ? 我们使用每个默认框的最大置信度损失对它们进行排序,并选择最上面的那些,以便正负比不超过3:1。
  5. 用哪些特征图 ?  之前的研究表明,使用底层的feature map可以提高语义分割的质量,因为底层可以捕捉到更多输入对象的细节。 以及 ,添加 从feature map 汇集的 global context 可以帮助平滑分割结果。 所以 use both the lower and upper feature maps
       

 

 

1. SSD  和其他方法最主要的不同:

    ground truth information needs to be assigned to specific outputs in the fixed set of detector outputs  

2. 为了处理不同的对象尺度,一些方法建议对不同大小的图像进行处理,然后结合结果。

   我们提出的方法:利用单一网络中不同层次的 feature maps进行预测 , 同时共享参数

3. 未来方向:探索它作为一个系统的一部分 使用循环神经网络在视频实时检测和跟踪对象

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值