目标检测（一）：R-CNN

最新推荐文章于 2024-06-29 19:43:39 发布

MajinWakeup

最新推荐文章于 2024-06-29 19:43:39 发布

阅读量198

点赞数

分类专栏： # 目标检测文章标签： R-CNN 目标检测

本文链接：https://blog.csdn.net/MajinWakeup/article/details/100666451

版权

目标检测专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目标检测（一）：R-CNN

1 R-CNN框架
2 训练部分介绍

之前对于目标检测的深度学习框架了解不多，因此需要阅读大量文献，这里参考Github上的一个文章整理¹进行阅读，主要阅读其中一些比较重要的文献。

1 R-CNN框架

R-CNN²的整体框架如下图所示：
R-CNN架构
给定一幅图像，需要经过三个步骤的处理：1. 提取候选区域框（文章里是2000个region proposals）。2.对于每个region proposal，将其对应的图像块送入CNN提取特征。3.对于每个region proposal的特征，使用SVM计算其对应于每个类别的概率。也就是说最终有2000*C（C为类别总数）个类别概率，之后利用非极大值抑制NMS方法确定最终的检测结果。
本文的另一个贡献是：提供了一种在标记训练样本不足情况下的解决办法。作者首先在一个拥有充足数据的辅助任务上进行监督预训练（此处指分类任务），然后再在目标任务上进行微调。这种方法可以推广应用到其他数据短缺的任务上。

We conjecture that the “supervised pre-training/domain-specific finetuning”
paradigm will be highly effective for a variety of data-scarce vision problems.

接下来对三个步骤进行介绍。

1.1 获取region proposals

作者在此使用的是Selective Search³方法生成候选区域，从一张图像生成约2000-3000个候选区域。文中并未介绍具体的操作步骤，我也没有仔细阅读对应的文献，这里引用shenxiaolu1984的这篇博客的介绍。基本思路如下：

使用一种过分割手段，将图像分割成小区域。
查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置。
输出所有曾经存在过的区域，所谓候选区域。

候选区域生成和后续步骤相对独立，实际可以使用任意算法进行。

1.2 Feature Extraction

对于每个候选区域，需要提取其对应的固定长度的特征向量。由于候选区域的大小形状不一，因此需要首先将区域调整到统一尺寸。作者在这里选用的是一种warp with context padding的方法，对于每个候选区域，会先向周围图像padding16个像素（若超出原图像边界则使用均值填充），然后进行缩放得到227*227大小的图像。之后将其作为输入，使用CNN提取特征，文中比较了不同CNN层的特征效果，最优效果为FC7层的输出，为4096维的向量。
也就是说，每个region proposal都被转化为一个4096维的特征向量。

1.3 Classify

根据第二步得到的特征，判断其类别分数。其实原本CNN的最后一层输出对应的就是每个类别的概率分数（这里用词可能不准确，或者说是置信度分数，能理解即可），但是作者在这里使用了另一种方法，即利用单独的SVM进行分类，具体原因在文章里有介绍。
SVM是一个二分类器，因此每个SVM只能用来判断特征属于某个单独类别的概率。所以总共需要C个SVM，每个region proposal得到C个类别的分类概率，所有的region proposals总共有2000*C个分类概率。
最后利用NMS来进行筛选，确定最终的检测结果。

Bounding Box Regression

这算是文章里的一个小trick，是一个后处理步骤，可以提升边界框的定位精度。其步骤在SVM分类之后。对于每个region proposal，使用其对应类别的边界框回归器（由训练得到）来对边界框进行处理，重新调整边界框位置。

2 训练部分介绍

两个主要训练步骤如下：

supervised pre-training：首先在ILSVRC2012数据集上进行预训练
domain-specific fine-tuning：之后在VOC数据集上进行微调

除此之外还有：

object category classifier：每个类别需要训练一个SVM
BB regression：每个类别训练一个边界框回归器

A paper list of object detection using deep learning. ↩︎
Girshick R B, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. computer vision and pattern recognition, 2014: 580-587. ↩︎
J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. ↩︎