文献精读——(第十六篇)DSSD

一、文献梳理

1、文献背景

回顾目标检测的发展历程,在基于现有深度学习方法的基础上,还要提升检测精度的话,其中两个途径就是更好的特征提取网络增加上下文信息,尤其对小物体检测而言更是如此。DSSD是SSD算法改进分支中最为著名的算法,它对要解决SSD算法在对小目标不够鲁棒的问题。

2、研究成果

1)模型意义

  • 把SSD的基准网络从VGG换成了Resnet-101,增强了特征提取能力;
  • 使用反卷积层(deconvolution layer )增加了大量上下文信息。

2)实验及其结果

DSSD以513 * 513的图片输入,在VOC2007上的mAP是81.5%,而SSD为80.6%,在COCO数据集上mAP也达到了33.2%,均高于R-FCN;FPS为5.5(batch_size=1)

 

二、核心改进

  • 提出基于top down的网络结构,用反卷积代替传统是双线性插值采样
  • 在预测阶段引入残差单元,优化候选框回归和分类输入的特征图
  • 采用两阶段训练方法

三、文献重点

1、Resnet-101结构(与SSD对比)

第一项改进就是换网络,把VGG换成Resnet-101(Figure 1上半部分)。这里,作者在conv5-x区块后面增加了一些层(SSD Layers),然后会在conv3-x,conv5-x以及SSD Layers预测分类概率和边框偏移。如果仅仅是换网络的话,mAP居然还下降了一个百分点,只有增加上下文信息,精度才会有较大提升。

红色层做反卷积操作,使其和上一级蓝色层尺度相同,再把二者融合在一起,得到的新的红色层用来做预测。如此反复,仍然形成多尺度检测框架。在图中越往后的红色层分辨率越高,而且包含的上下文信息越丰富,综合在一起,使得检测精度得以提升。 

2、预测模块

1)概念:

Prediction Module指的是,将特征图输入到卷积层,输出每个特征点对应多个default box的类别向量和回归坐标;

 2)变体

下图所示,(a)是SSD采用的Prediction Prediction,即使用单层卷积(3×3卷积核大小)直接输出相应的Cls(类别向量,包括背景分类)和LocRegress(回归坐标)。变体(b)(c)和(d)则是DSSD采用的Prediction Prediction ,即在输出预测结果前,使用1×1 1×11×1卷积核大小的卷积层和类似ResNet的残差结构,在不大量增加参数量和不改变感受野大小的前提下,进一步提取特征并融合上下文信息。

 3、反卷积SSD网络

为了引入更多的高级上下文信息,作者在SSD+Resnet-101之上,采用反卷积层来进行预测,和原始SSD是不同的,最终形成沙漏形的网络。添加额外的反卷积层以连续增加后面特征图的分辨率,为了加强特征,作者在沙漏形网络中采用了跳步连接(skip connection)方法。按理说,模型在编码和解码阶段应该包含对称的层,但由于两个原因,作者使解码(反卷积)的层比较浅:其一,检测只算是基础目标,还有很多后续任务,因此必须考虑速度,做成对称的那速度就快不起来。其二,目前并没有现成的包含解码(反卷积)的预训练模型,意味着模型必须从零开始学习这一部分,做成对称的则计算成本就太高了。

深层特征图的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱;浅层特征图的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱;为了充分利用深层特征图和浅层特征图的有效信息,作者提出了Deconvolutional Module,即在使用浅层特征图(假设为2H×2W×D大小)输入到Prediction Module之前,先使用反卷积层将下一层较深的特征图(H×W×D 大小)转换为相同大小(2H×2W×D),将这两个特征图融合,作为Deconvolutional Module的输入。

4、网络训练 

1)原理

训练技巧大部分和原始SSD类似。首先,依然采用了SSD的default boxes,把重叠率高于0.5的视为正样本。再设置一些负样本,使得正负样本的比例为3:1。训练中使Smooth L1+Softmax联合损失函数最小。训练前依然需要数据扩充(包含了hard example mining技巧)。另外原始SSD的default boxes维度是人工指定的,可能不够高效,为此,作者在这里采用K-means聚类方法重新得到了7种default boxes维度。

2)步骤

  • 通过计算default box和true boxes(真值框)的IOU值,IOU>0.5的标注为正样本,则该default box的标签就是跟这个default box的IOU最大的真值框的标签;IOU<0.5的标注为负样本;
  • 由于我们的分类向量有一个背景得分,故负样本可以参与类别的loss计算,但不参与坐标回归的loss计算;
  • 然后选取所有的正样本,然后按照正、负样本比为 1 :3 的比例选取IOU得分最小的负样本参与Loss计算,其余default box的Loss记为0(其中分类Loss使用交叉熵Loss,坐标回归Loss使用SmoothL1);
     
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值