Paper带读笔记CV.5：SSD单点多尺寸目标检测器

最新推荐文章于 2020-09-02 13:42:00 发布

oldmao_2000

最新推荐文章于 2020-09-02 13:42:00 发布

阅读量386

点赞数

分类专栏： Paper带读

本文链接：https://blog.csdn.net/oldmao_2001/article/details/94390283

版权

Paper带读专栏收录该内容

7 篇文章 30 订阅

订阅专栏

前言

本课程来自深度之眼，部分截图来自课程视频。
文章标题：SSD: Single Shot MultiBox Detector
作者：Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy
发表时间：2016 ECCV

目标检测简介

实际上目标检测的概念在RCNN中已经提过了，它是在图像分类的基础上发展过来的一种技术。
在这里插入图片描述
目标检测发展历史可以分成两个阶段，以12年的CNN为界。

下面这个图可能更加详细：原文在此

目标检测相关技术

基于手工特征的目标检测

基本思想：
将可疑目标从原始图像分割出来,然后对分割出来的目标进行特征提取:这些特征都是人为设计的，常用的方法有SIFT、HOG、SURF等等。最后对提取出来的特征进行分类。这里常用的分类器有SVM、 AdaBoost等等。
面临问题：
1:基于滑动窗口的区域选择策略,容易产生窗口冗余
2:手工设计的特征对于目标多样性的问题并没有好的鲁棒性。

基于深度学习的目标检测

基本思想：
与传统方法不同，随着卷积神经网络的兴起,其对于特征的抽象能力越来越强，于是可以用卷积神经网络对图像进行特征提取，代替手工特征，而且深度神经网络学习到的特征鲁棒性以及表达能力特别强，在精度方面上大大提升。
基本方法：
1:基于区域提名的目标检测算法
2:基于端到端学习的目标检测算法
下面的图应该来自RCNN算法，第三步这里原来是手工设计特征，包括纹理什么的，现在用深度学习自动学习这些特征。
在这里插入图片描述

基于区域提名的目标检测（RCNN）

基本思想：
区域提名，即针对图像中目标物体位置，预先提出候选区域的方法。然后再通过卷积神经网络对候选区域进行样本分类。俗称(two stage检测)
主流方法：
主流的基于区域提名的目标检测算法主要包括R-CNN, Fast R-CNN, Faster R-CNN等。

基于端到端学习的目标检测（SSD）

基本思想：
无需预先提出候选区域,网络直接预测输出物体的类别概率和位置坐标值，即我们的网络是统一的网络,经过单次检测即可直接得到最终的检测结果,俗称(one- stage检测）
主流方法：
主流的基于端对端学习的目标检测算法主要包括：YOLO和SSD等。

SSD研究背景、成果及贡献

SSD研究背景

由于one- stage检测器和two stage检测器都存在着速度与精度平衡的问题，所以,通过借鉴yolo的网络架构和 faster Rcnn中 anchor boxes实现多尺度的思想设计出SSD网络（YOLO+faster Rcnn）。

SSD成果

SSD在 PASCAL VOC，COCO和ILSVRO数据集上均获得了最先进的结果，在voc2007测试中，获得了59FPS和74.3%的mAP,，SSD无论是在速度还是在精度上都超过了当时最快的高精度检测器 Faster Cnn。
在这里插入图片描述

SSD贡献

在这里插入图片描述

前期知识储备

损失函数：了解深度学习中常用的损失函数，例如交叉熵，平方差等
CNN：了解深度学习中常用的损失函了解卷积神经网络(CNN)的结构，掌握CNN的基本工作原理
FasterRcnn& Yolo：了解 FasterRcnn和Yolo的基本算法

精读

本节会详细介绍ssd论文，包括论文的整体框架，为了充分的理解ssd，还会介绍ssd算法的前辈，fasterRcnn 和yolo算法，接下来是对ssd算进行详细的讲解，其中包括ssd的模型结构，ssd的损失函数设计，ssd改进以及ssd的训练方法，在ssd中有很多小技巧，包括Atrous算法，难例挖掘，数据增强等等。

论文整体框架

摘要、引言、SSD网络模型及训练方法、实验结果、相关工作、结论、致谢。

摘要

1.提出了SSD目标检测算法
基于端对端学习的目标检测
将边界框的输出空间离散化为一组默认框
预测结果来自于不同层次的特征图
2.介绍了SSD的性能
300300分辨率的输入，voc2007测试集上获得74.3%mAP和59FPS
512512分辨率的输入，获得76.9%mAP，超过了最先进的Faster Rcnn

引言

1.介绍了当前目标检测的常用方法（two stages）
步骤一：提出候选框
步骤二：对每个框重新取样像素或特征
步骤三：应用高精度分类器分类
2.介绍了当前目标检测方法的缺点
计算量太大，速度慢，不适合实时系统，提升速度通常以降低精度为代价。
3.简单介绍了SSD的改进
不需要预先提出候选框
不需要像素或者特征的重采样
采用了多尺度的fliters
在多个特征图上预测
4.简单介绍了SSD的成果
速度和精度大幅度提升
5.介绍了SSD的贡献
SSD方法的核心是使用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移。
为了实现高检测精度，我们从不同尺度的特征图产生不同尺度的预测，并且通过宽高比来明确地分离预测。
总之，这些设计特性得到了简单的端到端训练和高精度，进一步提高速度和精度的权衡，即使输入相对低分辨率图像。
实验包括在PASCAL，VOC，MSCOCO和ILSVRC上评估不同输入大小下模型耗时和精度分析，并与一系列最新的先进方法进行比较。

Faster R-CNN和YOLO介绍

Faster R-CNN算法

1.算法介绍
a.Featrue Extraction使用cnn特取特征
b. RPN Net生成proposal
c.RoiPooling利用proposal和cnn提取的featrue 得到固定大小的featrue Map（耗时最多）
d.Classification and regression 利用RoiPooling得到的featrue进行分类和位置回归
2.anchor设计
在Featrue Extraction的最后一层特征上产生anchor，每个像素点产生个3种ratio，3种scale的anchor.这里的anchor就是ng讲的anchor box

YOLO算法

1.算法介绍
a.将物体检测这个问题定义为bounding box和分类置信度的回归问题。
b.Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测，Yolo将全图划分为SXS的格子，每个格子负责中心在该格子的目标检测，采用一次性预测所有格子所含目标的bbox、定位置信度以及所有类别概率向量来将问题一次性解决（one-shot).
2.缺点，划分格子的数量决定了能检测物体类别的上限；精度不高

SSD网络结构

在这里插入图片描述
前面用的是VGG16的特征提取层，然后后面接两个ConvNet用的VGG16FC层的参数，原因是参数数量一致，然后可提升训练效果（老师讲的）

SSD网络训练方法

default box设计（类似anchor）

a_r等于1的时候对应两张default box
在这里插入图片描述
小物体用小特征图，大物体用大特征图

匹配策略

在这里插入图片描述
下面是用IOU来判断default box是否为正负样本的例子。绿色的是label data，FP代表负样本，TP代表正样本。

损失函数

这里和cs231n中讲的差不多。位置损失包括中心的偏移量和宽高的偏移量，注意：只有正样本才会参与位置损失计算。
在这里插入图片描述

难例挖掘

在这里插入图片描述
例子：

在数据集中，简单负样本（背景）数量很多，会影响正样本的学习。

数据增强

在这里插入图片描述

SSD对比Faster R-CNN和YOLO

在这里插入图片描述

SSD实验

在这里插入图片描述

SSD之Atrous

1.Atrous介绍
空洞卷积（atrous convolutions)又名扩张卷积（dilated convolutions)，向卷积层引入了一个称为“扩张率（dilation rate)"的新参数，该参数定义了卷积核处理数据时各值的间距。
2.Atrous优点
在相同的计算条件下，空洞卷积提供了更大的感受野，空洞卷积经常用在实时图像分割中，当网络层需要较大的感受野，但计算资源有限而无法提高卷积核数量或大小时，可以考虑空洞卷积。
在这里插入图片描述

SSD分析

Data augmentation is crucial
More default box shapes is better
Atrous is faster

oldmao_2000

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Paper带读笔记CV.5：SSD单点多尺寸目标检测器

文章目录前言目标检测简介目标检测相关技术基于手工特征的目标检测基于深度学习的目标检测基于区域提名的目标检测（RCNN）基于端到端学习的目标检测（SSD）SSD研究背景、成果及贡献SSD研究背景SSD成果SSD贡献前期知识储备前言本课程来自深度之眼，部分截图来自课程视频。文章标题：SSD: Single Shot MultiBox Detector作者：Wei Liu, Dragomir A...
复制链接

扫一扫