DSSD论文阅读

9 篇文章 0 订阅
6 篇文章 1 订阅

DSSD的贡献:

本文最大的贡献,在常用的目标检测算法中加入上下文信息。通俗点理解就是,基于CNN的目标检测算法基本都是利用一层的信息(feature map),比如YOLO,Faster RCNN等。还有利用多层的feature map 来进行预测的,比如ssd算法。那么各层之间的信息的结合并没有充分的利用。

DSSD算法就是为了解决这个问题的。

DSSD算法的由来:

既然是SSD算法的改进算法,我们先看看SSD算法的一些缺点。

SSD算法的缺点众所周知了,就是对小目标不够鲁棒。我们先分析一下为什么会对小目标不够鲁棒的。

先回忆一下YOLO算法,把检测的图片划分成14*14的格子,在每一个格子中都会提取出目标检测框,最初的时候每一个格子只会提取出一个目标框,这时问题就很大,因为可能会有两个目标落入一个格子中,那么就会出现漏检。
顺理成章的是,在一个格子中提取出多个检测框来匹配目标,这时我们可以使用Anchor的思路,一个格子中加上6到9个不同的检测框。这样就可以匹配大部分目标了。这也算解决了漏检问题

但是还是会有问题的,比如我们的9个Anchor比较大的话,比较小的目标就又无法匹配到了。那怎么解决呐?

SSD的思路就是我可以在更潜的一些层(feature map)上,来更好的匹配小目标。换句话说就是把图片分成的格子更小了,

一张图片分成的格子的数目变多了。那么这样再在这些格子中使用Anchor ,这样漏检的概率就会大大减小了。

所以SSD的mAP比YOLO提高了不少。

但是

在浅层提取的feature map表征能力不够强,也就是浅层的feature map中每个格子也可以判断这个格子中包含的是哪一个类,但是不够那么确定!
可能会出现混淆。就是框是标对了,但是分类有可能出错,或者置信度不够高,不确定框里面的东西是什么?(有可能是分错类,也有可能是背景误认为成目标)。

这样同样会出现误检和漏检。这种情况对于小目标出现的概率更高。所以SSD算法对小目标还是不够鲁棒。

Introduction

We then augment SSD+Residual- 101 with deconvolution layers to introduce additional large- scale context in object detection and improve accuracy, especially for small objects
DSSD主要是介绍了一种引入额外上下文信息到ssd中,使用反卷积层增强SSD + Residual-101,并引入额外的大尺度上下文信息到对象检测中以提高准确性,尤其是对于小目标

While these two contributions are easily described at a high-level, a naive implementation does not succeed. Instead we show that carefully adding additional stages of learned transformations, specifically a module for feed-forward connections in deconvolution and a new output module, enables this new approach and forms a potential way forward for further detection research.

虽然这两个贡献很容易在高层次上描述,但是简单的实现并不成功。因此我们展示仔细添加学习转换的其他阶段,特别是反卷积中的前馈连接模块和新的输出模块,使这种新方法成为进一步检测研究的潜在方法。

在这里插入图片描述

Unfortunately neither of these modifications, using the
much deeper Residual-101, or adding deconvolution layers to the end of SSD feature layers, work “out of the box”. Instead it is necessary to carefully construct combination modules for integrating deconvolution, and output modules to insulate the Residual-101 layers during training and al low effective learning

遗憾的是,使用更深层次的Residual-101或在SSD功能层末尾添加反卷积层的这些修改都不能“开箱即用”。相反,有必要仔细构建用于集成反卷积的组合模块,并输出模块以在训练期间隔离Residual-101层并允许有效学习

DSSD方法:

. Following many existing works on seman- tic segmentation [21] and pose estimation [20], we propose to use an encoder-decoder hourglass structure to pass con- text information before doing prediction.

在关于语义分割[21]和姿态估计[20]的许多现有工作之后,我们提出使用编码器 - 解码器沙漏结构在进行预测之前传递背景信息。

By using deconvo- lution layers and skip connections, we can inject more se- mantic information in dense (deconvolution) feature maps, which in turn helps predict small objects.

通过使用反卷积层和跳连接(原图一中ssd层 与dssd层之间的连接),我们可以在密集(反卷积)特征映射中注入更多的语义信息,这反过来又有助于预测小物体。

The deconvolution layers not only addresses the problem of shrinking resolution of feature maps in convolution neural networks, but also brings in context information for prediction.
反卷积层不仅解决了卷积神经网络中特征图的分辨率收缩问题,而且还带来了预测的上下文信息。

DSSD 模型重点

Prediction module

MS-CNN[2] points out that improving the sub-network of each task can improve accu- racy. Following this principle, we add one residual block for each prediction layer as shown in Figure 2 variant ©
MS-CNN [2]指出,改进每项任务的子网可以提高准确性。遵循这个原则,我们为每个预测层添加一个残差块,如图2变量(c)[所示]

在这里插入图片描述

Following this principle, we add one residual block for each prediction layer as shown in Figure 2 variant ©. We also tried the original SSD approach (a) and a version of the residual block with a skip connection (b) as well as two sequential residual blocks (d). Ablation studies with the different prediction modules are shown in Table 4 and discussed in Section 4. We note that Residual-101 and the prediction module seem to perform significantly better than VGG without the prediction module for higher resolution input images.

如图所示,在每个预测层添加一个残差块,性能研究在论文第四部分

Deconvolution Module

在这里插入图片描述
In order to help integrating information from earlier fea-
ture maps and the deconvolution layers, we introduce a de- convolution module as shown in Figure 3.
This module fits into the overall DSSD architecture as indicated by the solid circles in the bottom of Figure 1.
We make the following modifications and show them in Figure 3. First, a batch normalization layer is added after each convolution layer. Second, we use the learned deconvolution layer in- stead of bilinear upsampling. Last, we test different combi- nation methods: element-wise sum and element-wise prod- uct. The experimental results show that the element-wise product provides the best accuracy
反卷积模块用于集成之前的特征图和反卷积层的信息。该模块适用于整个DSSD架构,如图1底部的实心圆圈所示
进行了以下修改并在图3中显示它们。首先,在每个卷积层之后添加批量标准化层。其次,使用学习的反卷积层而不是双线性上采样。最后,测试了不同的组合方法:元素和与和元素内积。实验结果表明元素内积提供了最佳的准确性

结束

https://arxiv.org/pdf/1701.06659.pdf

真诚感谢这位博主 的分析 ,含代码

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值