R-CNN-学习记录-CSDN博客

本文链接：https://blog.csdn.net/lzf767801/article/details/131838541

引入：本次学习内容基本来自于Ross Girshick，Jeff Donahue等编写的的《Rich feature hierarchies for accurate object detection and semantic segmentation》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：论文介绍了一种用于准确目标检测和语义分割的富特征层次结构方法。该方法的核心思想是将深度卷积神经网络（CNN）应用于目标检测和语义分割任务中。论文中提出了一种名为R-CNN的框架，它由三个主要组件组成：候选区域生成、特征提取和目标分类。在候选区域生成阶段，研究人员使用选择性搜索算法来确定可能包含目标对象的候选区域。这些候选区域随后被提供给深度CNN进行特征提取。特征提取过程通过从每个候选区域中提取局部区域的深度CNN特征来完成。提取的特征经过预训练的CNN模型进行处理，以获得固定长度的特征向量表示。最后，使用这些特征向量，采用支持向量机（SVM）进行目标分类。论文中还介绍了如何通过联合训练CNN和SVM来改善目标分类的性能。

（二）发表时间：2014

（三）关键词：目标检测，卷积神经网络，特征提取，候选框选取

（四）学习笔记：

当时，物体检测最好的方法就是融合了多种低维图像特征和高维上下文环境的复杂融合系统。而作者提出了一种新的简单且可扩展的检测算法，将VOC2012最好的mAP提升到了53.3。这种方法可以在候选区域自上而下的使用CNNs，并且当带标签的训练数据不足时，先针对辅助任务进行有监督预训练，再进行特定任务的调优。这种结合region proposal和CNNs的技术，叫R-CNN。

论文关注的两个问题：使用深度网络定位物体和在小规模的标注数据集上进行大型网络模型的训练。

R-CNN可以大致分为三个模块。第一个，产生类别无关的region proposal。这些proposal定义了一个候选检测区域的集合；第二个是一个大型卷积神经网络，用于从每个区域抽取特定大小的特征向量；第三个是一个指定类别的线性SVM。

在获取region proposal时，一般采用的都是selective serach算法。Selective Search 的工作流程如下：

初始化：将图像划分为初始候选区域，通常基于像素相似性。

相似性计算：计算候选区域之间的相似度，包括颜色、纹理、尺寸和形状等特征。

区域合并：根据相似度将候选区域逐步合并，生成更大的区域。

停止准则：通过一定的停止准则（如区域大小、相似度阈值等）确定最终的分割结果。

而对于第二模块的特征提取，首先需要做的就是调整输入图像的大小，因为AlexNet的输入图像大小是227×227，因此也需要将其调整一致。而在resize之前，会对候选框进行padding操作，增加16个像素，这样可以获得更多的边缘信息，防止特征可能被截断。同时，因为CNN需要做新的任务，我们也需要对其做特定领域的参数调优。同时我们也需要将全连接层换成21-way分类层，然后计算proposal和GT的IOU，即交并比，如果大于0.5则视作正样本，反正则为负样本，这时候需要对正样本做上采样保证其分布均衡。

作者使用是SVM进行分类。每一个类别都有一个单独的SVM分类器，这些分类器都是训练后进行使用的。

最后则是bbox regression。目的是为了得到更加准确的预测目标框，使其更加接近GT。具体做法就是对边界值做回归训练。region proposal包含五个特征值，我们要做的是让这五个特征值去逼近GT的特征值，当然，不是手动操作。而是建立映射关系，也就是回归，如果x是region proposal的特征值，y是需要移动的尺度，那么我们需要的就是训练一组W，使得y=Wx。通过分别计算位置的偏差量和缩放量，最后进行训练，使用梯度下降法或者最小二乘法就可以得到W。