深度学习之物体检测（一）R-CNN

最新推荐文章于 2023-12-31 01:41:25 发布

crazyeden

最新推荐文章于 2023-12-31 01:41:25 发布

阅读量941

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/crazyeden/article/details/82866951

版权

本文介绍了深度学习在物体检测领域的开创性工作R-CNN，它使用深度网络提取特征并结合SVM进行分类。R-CNN通过selective search获取候选框，对每个框进行AlexNet特征提取，然后利用预训练模型进行微调。SVM分类器用于最终判断，同时用回归器优化边界框位置。

摘要由CSDN通过智能技术生成

作者Rgb

在这之前大部分物体检测算法都是基于传统的图像处理方法，这是第一篇将深度学习用到物体检测上的文章，直接影响是2012年ALEXNET在比赛中的重大成功。

简单来说，RCNN使用以下四步实现目标检测：

a. 在图像中用slective search 方法确定约1000-2000个候选框

具体为什么使用这个方法，原文在第三页中有说While R-CNN is agnostic to the particular region proposal method, we use selective search to enable a controlled comparison with prior detection work。意思是R-CNN和区域选择方法并没有联系，对任何选择方法都是兼容的，这里选用SS目的是方便于同之前别人的工作进行对比。slective search 方法是在图像分割的基础上运用贪心算法思想，得到物体可能在的不同区域。

b. 对于每个候选框内图像块，使用深度网络提取特征，得到一个固定长度的特征向量

We extract a 4096-dimensional feature vector from each region proposal using the Caffe implementation of the CNN described by Krizhevsky etal.这里很清楚的说了，作者就是用了AlexNet的网络结构最好提取4096维的一维向量，作为特征向量。

输入去均值化的227×227 RBG通道图片，然后经过5个卷积2个全连接。因为经过SS得到的候选框大小不一，但是CNN要求的输入必须是227×227的。这里就涉及到几种归一化方法。原论文在第11页给出了几种填充和缩放方法。这里方法的选择会影响3-5mAP。作者这里使用了在得到原始的propos