目标检测R-CNN论文学习

最新推荐文章于 2021-08-01 11:23:35 发布

Nancy_Yin

最新推荐文章于 2021-08-01 11:23:35 发布

阅读量298

点赞数

文章标签：计算机视觉Ｒ－ＣＮＮ

本文链接：https://blog.csdn.net/Nancy_Yin/article/details/102885279

版权

Rich feature hierarchies for accurate object detection and segmentation

这篇文章是由美国伯克利大学Ross Girshick等人提出的，主要是基于CNN所提出一种可以将大量的CNN应用于自下而上的region proposals，目的是方便对对象进行定位和分割；其次，当训练标注数据不足时，对于辅助任务的监督预训练并在特定区域进行微调可以显著的提升性能。

目标检测
在这里插入图片描述
框代表目标的位置，框的颜色代表目标所属的类别。

本文主要想解决两个问题：
1.用一个神经网络解决定位问题
2.仅用很少的标注检测数据训练一个

1.intodution

在过去的十年里，就多视觉识别任务是基于SIFT 和 HOG
在这里插入图片描述

R-CNN increased the detection accuracy of the Pascal VOC dataset from 35.1% to 53.7%.

R-CNN是在CNN的基础上进行改进，不同于以往CNN采用两个卷积池化层，R-CNN采用5个卷积层，195195像素的感受野（receptive fields），strides为3232像素，以此来改善滑窗（sliding-window）定位问题；并且使用区域识别（recognition using regions）解决了CNN的定位问题，成功的进行目标检测以及语义分割。

CNN问题
1.没有解决head to head 问题
2.

R-CNN解决
1.head to head问题

2.R-CNN detection with R-CNN

本文的目标检测系统是由三个模型组成：
1.generates category-independent detections available
2.extracts a fixed-length feature vector from region using cnn
3. linear SVMs

2.1 Module design

Region proposals(候选区域):

R-CNN采用的selective search生成候选区域。

selective search的优点：
1.适应不同尺度，尽可能找到所有目标
2.策略多样性，可以产生更高质量的候选区域
3.计算效率，由于要在一张图片中找到候选区域，所以计算速度应该尽可能的快。

Feature extraction

文章使用caffe 提取了一个4096-dimensional feature vector。
为了计算候选区的特征，本文将所有的特征都放在bounding box里，并进行缩放成相同大小的图片，如下图所示。
在这里插入图片描述

2.2 Test-time detection

·用selective search提取候选区
·扭曲候选区以提供特征
·用CNN计算特征
·用SVM训练对每个提出的特征评分
·对一幅图中所有的评分区域应用贪婪非最大抑制（greedy non-maximum suppression）
Run-time analysis
两个特性使得检测非常有效。
1.所有CNN的参数在所有的类别中共享
2.CNN计算出的特征向量是低维的，特征采用UVA检测系统提取

2.3 Training

Supervised pre-training

Domain-specific fine-tuning

2.4 Results on PASCAL VOC 2010-12

在这里插入图片描述

2.5 Results on LISVRC2013 detection

在这里插入图片描述

3.Visulization,ablation,and modes of error

3.1 Visualing learned features

4.The ILSVRC2013 detection dataset

5.Semantic segmentation

6.Conclusion

Appendix

A.Object proposal tramsformations

在这里插入图片描述

卷积神经网络要求输入图像为227*227，对于物体检测，所框选物体的框都是任意大小的，因而提出了两种方法来改变图像的大小，以适应CNN的输入。
第一种
(A)预选目标在原始图像中的大小
(B)紧紧包围目标
©除去包围在预选目标周围的其它预选目标
第二种
warp:直接将图像缩放到CNN的输入大小

Positive vs. negtive examples and softmax

对于预选目标与ground-truth 匹配
Positive IoU最大
Negative IoU<0.5
background 其它IoU
对于训练SVM，只将ground-truth boxes作为positive，IoU<0.3的作为negative,而IoU>0.3但不是ground-truth的忽略