Object Detection in 20 Years A Survey 论文阅读笔记

文章链接:https://arxiv.org/pdf/1905.05055.pdf

1.Introduction

作为计算机视觉的基本问题之一,目标检测构成了许多其他计算机视觉任务的基础,例如实例分割,图像捕获,对象跟踪等。从应用的角度来看,目标检测可分为两个研究主题“general object detection”和“detection applications”,前者旨在探索在统一框架下检测不同类型目标的方法,以模拟人类的视觉和认知,后一种指的是特定应用场景下的检测,例如行人检测,面部检测,文本检测等。目标检测面临的挑战包括但不限于以下方面:物体旋转和尺度变化(例如小物体),精确的物体定位,密集和封闭的物体检测,检测速度的加快等。
在这里插入图片描述

2.OBJECT DETECTION IN 20 YEARS

2.1 A Road Map of Object Detection

2.1.1Milestones: Traditional Detectors

Viola Jones Detectors
通过滑窗来检测人脸,计算量巨大,采用了三个方法加速运算:“integral image”, “feature selection”,and “detection cascades”.
1.积分图像加速了框滤波(box filtering)和卷积过程,且使得每个窗口的计算复杂度与窗口尺寸无关
2.特征选择:作者使用Adaboost算法,从大量的随机特征池(约18万维)中选择了一小部分对大多数人脸检测有用的特征。
3.检测级联:引入了一种多阶段检测范例(也称为“检测级联”),在背景窗口上花费较少的计算而在面部目标上花费更多的计算,来减少其计算量。

HOG Detector
平衡了特征的不变性(invariance)和非线性,经过
1.颜色空间归一化(图像灰度化,Gamma校正)
2.梯度计算
3.梯度直方图(每个cell)梯度分为n个bin,4个cell构成一个block,block内进行归一化
4.形成HOG向量,4n*block数量

Deformable Part-based Model (DPM)
“devide and conquer”:训练过程就是学习一种decomposing an object的正确方式,学习分解物体。inference就是用一个物体不同部分的集合来表示这个物体。
DPM detector由一个root-filter 和若干个 part-filter 组成,part-filters由弱监督学习方法detector学习而来。(“hard negative mining”, “bounding box regression”, and “context priming”)To speed up the detection, Girshick developed a technique for “compiling” detection models into a much faster one(使用了级联结构)

2.1.2 Milestones: CNN based Two-stage Detectors

RCNN
1.首先提取一系列object proposals(使用selective search)
2.将每一个proposal,resize到一个固定size丢到CNN模型中在ImageNet上进行训练来提取feature
3.最后使用线性SVM分类器来predict每个区域中目标的位置以及label
drawback:太多重叠的、过多的proposals的计算量巨大,导致检测速度太慢

SPPNet(Spatial Pyramid Pooling Networks)
提出了一个SPP层(spatial pyramid pooling layer),可以在不对image或ROI进行resize的情况下,处理生成一个固定长度的representation。
SPPNet可以直接对整个图像进行计算一次就得到Feature map,然后得到每个ROI的固定维度的representation来训练detector,避免了重复的卷积计算。
drawback:training仍然是multi-stage的(detector与bbox),SPPNet只微调它的FC层,而忽略了之前的层。

Fast RCNN
可以在同一个网络中同时训练detector和bounding box regressor,
但是仍局限在proposal detection,速度被局限

Faster RCNN
Faster RCNN is the first end-to-end(原始数据输入,输出结果), and the first near-realtime deep learning detector.
提出了Region Proposal Network(RPN),将目标检测中之前独立的环节都整合到了一个框架中,共享计算。(proposal detection, feature extraction, bounding box regression, etc)
drawback:在后续的检测阶段仍有一些多余的计算

FPN(Feature Pyramid Networks)
因为CNN越深层的特征对于目标分类来说越有效,所以FPN之前的框架,都是只在最深一层运行detector,但是深层的特征对目标的定位不一定好。
FPN提出带有侧面连接的up-down结构,对不同尺度的feature map进行predict,而不是只关注最后一层map,这样可以在不同层输出不同尺度目标的检测结果。在那些有着多种尺度目标的检测中效果很好。

2.1.3 Milestones: CNN based One-stage Detectors

YOLO
第一个one-stage的detector,速度很快。
逻辑:将整张图片提供给一个神经网络,网络将图片分区域然后预测bbox,同时给出各个区域的label概率。
drawback:定位准确率不够高,对小物体效果稍差。

Single Shot MultiBox Detector(SSD)
提出了multi-reference 和multi-resolution技术(2.3.2中讲解),极大地改善了one-stage探测器的准确率以及对小目标的探测能力。
SSD与其他早先的探测器的主要不同在于,之前的探测器,探测不同尺度的目标时在网络的不同层进行,而SSD只在top layers进行。

RetinaNet
认为one-stage准确率不如two-stage的主要原因是,在训练dense detector时,会发生前景和背景class的不平衡。
提出了一种新的loss函数“focal loss”,它reshape了标准的交叉熵,使得探测器可以在训练时更加注意hard、misclassified examples.

2.2 Object Detection Datasets and Metrics

Pascal VOC
比赛包括多种任务:分类、目标检测、语义分割、动作捕捉等
数据集
VOC07,5k images, 12k标注好的目标
VOC12,11k + 27k
慢慢落后了

ILSVRC(The ImageNet Scale Visual Recognition Challenge)
使用ImageNet数据集进行detection challenge
包括 200 种visual objects,ILSVRC-14包含517k images 以及 534k 标注目标

MS-COCO
比ILSVRC相比来说类别少,但是标注的目标多。
MS-COCO-17包含 80类别、164k images、897k object
与上面两个最大的不同在于,不是使用bbox标注位置,而是使用了per-instance segmentation来对每个目标进行精确定位。
此外,MS-COCO数据集还包含了更多的小目标(小于图片大小1%),以及更多的密集分布的目标。

Open Images
Open Images Detection(OID)Challenge包含两个任务:
1.标准的目标检测
2.在目标检测中,检测paired objects的visual relationship

包含 600类、1910k images、15440k 标注目标
在这里插入图片描述
在这里插入图片描述

Other Datasets

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.2.1 Metrics

“Average Precision (AP)”:在一个特定类别中,检测的准确率(预测中实际为正的数量/预测为正的数量)
mean AP (mAP):综合所有类别的准确率。
定位的准确性:使用IoU,预测框与ground truth 的IoU大于某个值,认为成功检测。0.5-IoU based mAP是现在比较常用的metrics
MS-COCO AP 将IoU从0.5-0.95的AP进行平均

2.3 Technical Evolution in Object Detection

2.3.1 Early Time’s Dark Knowledge

Components, shapes and edges
recognition by components是早期目标检测的core idea,早期认为目标检测就是计算目标的成分、形状和轮廓的相似性。(Distance Transforms ,Shape Contexts, and Edgelet),效果不够好,ML方法兴起。
ML based检测方法(appearance的统计模型、小波特征表示(Haar小波)、梯度based 表示)

Early time’s CNN for object detection
早在1990s就使用了CNN,受限于计算能力,没有很好地发展,层数很浅,LeCun提出了许多tricks来摆脱这个限制。

2.3.2 Technical Evolution of Multi-Scale Detection

Feature pyramids + sliding windows (before 2014)
eg:HOG、DPM、OverFeat
原始的特征金字塔+滑窗只能针对固定size以及长宽比的目标检测
mixture model进行了改进:使用多个model训练不同ratio的目标检测
exemplar-based detection:为训练集中每个object训练individual models
但是随着数据集中越来越多样,上面两种方式的模型越来越冗杂(miscellaneous),需要一种方法能够同时检测不同ratio的目标

Detection with object proposals (2010-2015)
object proposals指的是一组可能包含任意目标的候选框(candidate boxes),它的出现避免了在整张图片的全面的(exhaustive)滑窗。
一个object proposals detection algorithm需要满足:
1.高召回率
2.高定位准确率
3.在1.2的基础上,提升准确率以及降低处理的时间
现代object proposals methods可分为三种ÿ

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值