R-CNN论文精读笔记

「已注销」

已于 2023-03-10 18:56:30 修改

阅读量319

点赞数

分类专栏：目标检测论文精读文章标签： cnn 目标检测深度学习

于 2022-10-29 22:55:34 首次发布

本文链接：https://blog.csdn.net/qq_38836499/article/details/127593602

版权

目标检测论文精读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

R-CNN

Introduction

需要解决的两个问题

如何使用神经网络解决定位问题
如何使用少量数据训练大型的神经网络

目标定位问题

面对图像中目标定位的问题，有两种解决方法：

一种是将定位问题视为回归问题，但这种方法效果不太好
一种方法是使用滑动窗口进行检测，
- 只能在度固定大小或比例的目标进行检测
- 为了保持图像的高分辨率，往往只使用深度较小的CNN
- 滑动的步长选择也是一大挑战（小时可能跳过目标，大时计算复杂）

本文的具体解决方法为

为图像生成约2000个区域划分的建议
对每个建议的区域使用CNN并最终得到一个特征向量
对得到的特征向量使用支持向量机进行分类

其中对于区域划分得到的不同形状的图像使用简单仿射变换得到统一大小的图像

训练集问题

经典的解决方法是使用无监督学习对模型进行预训练，再使用监督学习进行微调

有关卷积及神经网络

文章中发现识别准确率不一定是来源于全连接层部分，因为他们发现即使在去除神经元的94%之后识别准确率只有很小的下降，也就是说，卷积层学习到了大部分特征。

同时作者指出，该方法也可以用于语义分割任务。

Object detection with R-CNN

文章中的识别系统依次包括：

为图像生成类别独立的（应该理解为不同类别有不同大小的候选框？），这些候选区域框是后续用于目标检测的可选区域
一个大型的卷积神经网络并为每个候选区域生成特定长度的特征向量
对特征向量进行分类的支持向量机

模块设计

划分候选区域

其基本操作就是使用Felzenszwalb and Huttenlocher 算法得到图像的分割，随后根据颜色、纹理、大小、形状相似度对区域进行合并，合并后重新计算不同区域间的相似度并再次合并，直至没有区域可以进行合并，此时就得到候选区域（感觉有点像聚类，具体原理没有深究，论文里是一笔说了一句我们用了这个方法）

卷积神经网络部分

使用基于Caffe数据集得到的CNN输出一个4096维的特征向量，输入该CNN的是一张227x227的RGB图像，而对于输入图像的不同的大小，文章中使用了最简单的方法，就是直接将图像拉到227X227的大小

但是在扭曲之前，会将选取的区域扩大几个像素以避免损失边缘信息

SVM部分

将卷积神经网络输出的特征向量输入支持向量机并得到该区域在各个类别上的得分，并对每个得分区域应用NMS（非最大值抑制）对所得区域进行选择和抛弃

作者的分析

两种特征使得该目标检测方法是高效的

CNN中的卷积核部分是共享权重的，并且计算时是统一计算的
CNN输出的特征向量与其他方法相比，维度有所降低
唯一的类别计算是在支持向量机和NMS中进行的，故对一张图像的分类是快速的

训练

在Caffe数据集上进行了CNN的预训练，并且在ILSVRC 2012数据集上也进行了CNN的训练（该上数据集具有像素级别的类别标记，但是没有边界框标记）
为使CNN适应新任务，使用经过拉伸后的区域划分得到的图像继续对CNN进行训练，其中使用的IOU的阈值设置为0.5（这个值的设定至关重要）
由于在训练过程中，生成的框与标记的框的IoU值大于某个阈值时才被视作正样本，然而数据集中只会标记正确的样本（记作正样本），缺失负样本，所以在训练过程中如果出现某个生成的框中不包含所检测目标的话，将该框作为样本放进训练集中作为一个负样本