学习笔记（八）R-CNN-CSDN博客

本文链接：https://blog.csdn.net/LYHRM/article/details/133854502

本文介绍了R-CNN在目标检测领域的应用，重点讲解了其工作原理，包括特征提取、候选区域选择、SVM分类以及预训练和微调过程。同时提到了R-CNN的局限性，如selectivesearch效率低和CNN的串行结构问题。

摘要由CSDN通过智能技术生成

记：开始阅读检测领域的经典论文，R-CNN
Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
初读论文还是不太懂这篇论文具体表现，看来B站讲解之后才慢慢领会

检测领域中的常用指标：
IoU（Intersection over union）是两个区域的重叠程度，是两个区域重叠部分面积占二者总面积（重叠部分只计算一次）的比例。
Precision 指检索出来的条目中（比如：文档、网页等）有多大比例是我们需要的
Recall 指所有我们需要的网页的条目有多大比例被检索出来了
PR曲线（Precision&Recall 曲线图）常常呈一个矛盾关系
AP(Average Precision)平均精准度，简单来说就是对PR曲线上的Precision面积取均值。
mAP(mean Average Precision) 全类平均正确率（又称全类平均精度）是将所有类别检测的平均正确率（AP）进行综合加权平均而得到的

文章对象：R-CNN（Regions with CNN features.）

本文所提出的R-CNN的处理架构：

首先使用selective search 随机选择2K个图像框，然后因为要使用到CNN来处理图像框，所以要对大小不一的图像进行padding，之后经过CNN的处理（文章中选用了5C+2F的架构。即5个卷积层+2个全连接层），对于得到的4096个特征之后采用SVM分类器进行二分类，而完成二分类得到的概率值即表示整个R-CNN。
其后是对R-CNN的training，预训练+微调，预训练主要是对前半部分的CNN进行预训练，微调是对后半部分的SVM。
最后针对选框不准的问题，提出了R-CNN BB ，即对框进行归一达到修正的效果。
注：SVM 支持向量机（support vector machines ），一种二分类模型

在这里插入图片描述

文章结构：

Introduction：
特征问题，过去研究的进展很慢，进步主要可以归结为SIFT特征和HOG特征。在12年时Krizhevsky使用CNNs模型展现的高准确率重新激发了人们对CNNs的兴趣
在一场辩论中的中心焦点是如何把ImageNet上的分类结果推广到PASCAL VOC数据集的目标检测任务上。本文提出在图片分类和目标检测建立联系，进而关注两个问题：①需要用深度网络来定位物体；②用少量的带标签数据集来训练模型
对于在图片中定位目标，本文采用在候选区域识别的方法，步骤：首先在输入图片上生成大约2000个与目标类别无关的候选区域，然后在每一个候选区域上用CNN提取出固定长度的特征向量，我们用仿射变换从每一个候选区域中计算固定大小 CNN，而不管候选区域的大小，最后用线性SVM对每一个候选区域进行分类。其中R-CNN中的R即region候选区域
在这里插入图片描述
对于问题②，一般采用用无监督的预训练，然后用有监督的模型微调。本文的第二个贡献是首先在辅助数据集（ILSVRC）上用有监督的预训练，然后用特定领域的小数据集（PASCAL）进行微调，当数据量很少的时候，这种方式可以有效地训练高精度的CNN。