你好，这里有一份 2019 年目标检测指南

最新推荐文章于 2022-05-18 15:57:43 发布

VIP_CQCRE

最新推荐文章于 2022-05-18 15:57:43 发布

阅读量445

点赞数

原文链接：https://mp.weixin.qq.com/s/6Ybbp-8f_hjvOUc-Jk9S6A#rd

版权

目标检测 (Object detection) 是一种计算机视觉技术，旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。

目标检测在视频监控、自动驾驶汽车、人体跟踪等领域得到了广泛的应用。在本文中，我们将了解目标检测的基础知识，并回顾一些最常用的算法和一些全新的方法。

转载来源

公众号：磐创AI来源：Medium “

阅读本文大概需要 11 分钟。

”

目标检测的原理

目标检测定位图像中目标的存在，并在该目标周围绘制一个边界框 (bounding box)。这通常包括两个过程:预测目标的类型，然后在该目标周围绘制一个框。现在让我们来回顾一些用于目标检测的常见模型架构:

R-CNN
Fast R-CNN
Faster R-CNN
Mask R-CNN
SSD (Single Shot MultiBox Defender)
YOLO (You Only Look Once)
Objects as Points
Data Augmentation Strategies for Object Detection

R-CNN 模型

该技术结合了两种主要方法:使用一个高容量的卷积神经网络将候选区域 (region-proposals) 自底向上的传播，用来定位和分割目标；如果有标签的训练数据比较少，可以使用训练好的参数作为辅助，进行微调 (fine tuning)，能够得到非常好的识别效果提升。

论文链接: https://arxiv.org/abs/1311.2524?source=post_page---------------------------

进行特定领域的微调，从而获得高性能的提升。由于将候选区域 (region-proposals) 与卷积神经网络相结合，论文的作者将该算法命名为 R-CNN(Regions with CNN features)。

该模型在对每张图片提取了约 2000 个自底向上的候选区域。然后，它使用一个大型 CNN 计算每个区域的特征。然后，利用专门针对类别数据的线性支持向量机 (SVMs) 对每个区域进行分类。该模型在 PASCAL VOC 2010 上的平均精度达到 53.7%。

该模型中的目标检测系统由三个模块组成。第一个负责生成类别无关的候选区域，这些区域定义了一个候选检测区域的集合。第二个模块是一个大型卷积神经网络，负责从每个区域提取固定长度的特征向量。第三个模块由一个指定类别的支持向量机组成。

该模型采用选择性搜索 (selective search) 方法来生成区域类别，根据颜色、纹理、形状和大小选择搜索对相似的区域进行分组。在特征提取方面，该模型使用 CNN 的一个 Caffe 实现版本对每个候选区域抽取一个 4096 维度的特征向量。将 227×227 RGB 图像通过 5 个卷积层和 2 个完全连接层进行前向传播，计算特征。论文中所解释的模型与之前在 PASCAL VOC 2012 的结果相比，取得了 30% 的相对改进。

而 R-CNN 的一些缺点是:

训练需要多阶段: 先用 ConvNet 进行微调，再用 SVM 进行分类，最后通过 regression 对 bounding box 进行微调。
训练空间和时间成本大: 因为像 VGG16 这样的深度网络占用了大量的空间。
目标检测慢: 因为其需要对每个目标候选进行前向计算。

Fast R-CNN

下面的论文中提出了一种名为 Fast Region-based Convolutional Network(Fast R-CNN) 目标检测方法。

https://arxiv.org/abs/1504.08083?source=post_page---------------------------

它是用 Python 和 C++ 使用 Caffe 实现的。该模型在 PASCAL VOC 2012 上的平均精度为 66%，而 R-CNN 的平均精度为 62%。

与 R-CNN 相比，Fast R-CNN 具有更高的平均精度、单阶段训练，训练更新所有网络层并且特征缓存不需要磁盘存储。

在其架构中， Fast R-CNN 接收图像以及一组目标候选作为输入。然后通过卷积层和池化层对图像进行处理，生成卷积特征映射。然后，通过针对每个推荐区域，ROI 池化层从每个特征映射中提取固定大小的特征向量。

然后将特征向量提供给完全连接层。然后这些分支成两个输出层。其中一个为多个目标类生成 softmax 概率估计，而另一个为每个目标类生成 4 个实数值。这 4 个数字表示每个目标的边界框的位置。

Faster R-CNN

论文链接: https://arxiv.org/abs/1506.01497?source=post_page---------------------------

论文提出了一种针对候选区域任务进行微调和针对目标检测进行微调的训练机制。

Faster R-CNN 模型由两个模块组成:负责提出区域的深度卷积网络和使用这些区域的 Fast R-CNN 探测器。候选区域网络 (Region Proposal Network) 以图像为输入，生成矩形目标候选的输出。每个矩形都有一个 objectness score。

Mask R-CNN

论文链接: https://arxiv.org/abs/1703.06870?source=post_page---------------------------

论文提出的模型是上述 Faster R-CNN 架构的扩展。它还可以用于人体姿态估计。

在该模型中，使用边界框和对每个像素点进行分类的语义分割对目标进行分类和定位。该模型通过在每个感兴趣区域 (ROI) 添加分割掩码 (segmentation mask) 的预测，扩展了 Faster R-CNNR-CNN。Mask R-CNN 产生两个输出:类标签和边界框。

SSD: Single Shot MultiBox Detector

论文链接: https://arxiv.org/abs/1512.02325?source=post_page---------------------------

论文提出了一种利用单个深度神经网络对图像中目标进行预测的模型。该网络使用应用于特征映射的小卷积滤波器为每个目标类别生成分数。

这种方法使用了一个前馈卷积神经网络，针对那些方框里的目标类别实例，产生一个固定大小的边界框的集合和分数。增加了卷积特征层，允许多比例特征映射检测。在这个模型中，每个特征映射单元 (feature map cell) 都链接到一组默认的边界框 (default box)。下图显示了 SSD512 在动物、车辆和家具上的性能。