目标检测：1. R-CNN_rnn目标检测模型的组成部分-CSDN博客

本文链接：https://blog.csdn.net/qq_38955142/article/details/115278442

R-CNN是一种基于深度学习的目标检测方法，通过卷积神经网络（CNN）提取特征和线性SVM分类实现目标检测。文章介绍了R-CNN的两大创新：使用CNN进行区域提议的特征提取和预训练加微调的训练策略。流程包括区域提议、特征提取、分类和边界框回归。尽管R-CNN在当时取得了显著成果，但也存在计算效率低和重复计算等问题。

摘要由CSDN通过智能技术生成

R-CNN

arXiv
在此之前，目标检测性能最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文结合在一起。本文提出了一个简单且可拓展的方法：R-CNN，主要有两点创新：

将大容量卷积神经网络用于自底向上的区域提议，以便于定位和分割目标，即使用卷积特征替代原有人工特征。
当标签训练数据很少时，先使用辅助任务对模型进行有监督预训练，然后再进行特定领域的微调，可以显著提高性能，即训练+微调。

传统特征如SIFT和HOG可以类比于灵长类视觉系统的第一个皮层区域，但是识别通常发生在下游的几个阶段，这表明分层次、多阶段计算特征会更有利于视觉识别。

CNN展现出强大的特征提取能力，但是如何将其应用于目标检测任务中需要面对两个问题：如何使用深度网络定位目标；如何使用很少数量的标注目标训练大容量模型。这两个问题分别对应上述两个创新点。

R-CNN流程

首先从输入图片中生成大约2000个与类别无关的区域提议，然后将其变换为固定大小的图像，使用CNN从每一个区域提议提取固定长度的特征向量，最后使用线性SVM对每个区域进行分类。

R-CNN目标检测系统主要由三个模块构成：

生成类别无关的区域提议，作为检测器的候选检测目标

使用选择性搜索（SS）方法生成候选区域提议
卷积网络从候选区域提取固定长度的特征向量

CNN输入图像大小为 $227\times227$ ，输出维度为4096
一系列类别指定的线性SVM分类器

在测试时，使用SS方法提取大约2000个区域提议，将每个提议框扭曲到固定输入大小，使用CNN计算特征，使用训练好的SVM对每一个类别进行打分，最后使用非极大值抑制（NMS）方法剔除IOU大于阈值的区域。

训练过程：

监督预训练

在辅助数据集（ImageNet）上对CNN进行分类预训练
特定域微调

为了将模型迁移到目标检测任务与目标检测数据集，使用扭曲区域提议对CNN模型进行训练，将最后的1000分类全连接层替换为 $N + 1$ 类全连接层（ $N$ 个待检测目标和背景），将与GT边界框IOU大于等于0.5的区域提议视为正样本，其余视为负样本。
目标类别分类

对每一个类样本训练一个二分类器，将与GT边界框IOU大于0.3的视为正样本，其余视为负样本，由于样本不均衡，采用硬负样本挖掘方法进行训练。
边界框回归

对于N个训练对集合 $\{(P^i,G^i)\}_{i=1,\cdots,N}$ ，其中 $P^i=(P^i_x,P^i_y,P^i_w,P^i_h)$ 是提议框 $P^i$ 的中心像素坐标以及宽和高，对应的GT边界框 $G^i$ 与之类似。我们的目标是学习一个变换能够将提议框 $P$ 映射到GT边界框 $G$ 。

用四个函数来参数化这个变换： $d_x(P),d_y(P),d_w(P),d_h(P)$ ，前两个指定边界框 $P$ 的中心尺度不变平移，后两个指定边界框 $P$ 的宽和高的对数空间变换。学习到这些函数后，我们可以将输入提议框变换到预测GT边界框 $\hat G$ ：
$\hat G_x = P_wd_x(P)+P_x\\ \hat G_y = P_hd_y(P)+P_y\\ \hat G_w = P_w\exp(d_w(P))\\ \hat G_h = P_h\exp(d_h(P))$
其中 $d_*(P)$ 是由 $pool_5$ 特征线性变换得到的，记为 $\phi_5(P)$ ，则有 $d_*(P)=\boldsymbol w^T_*\phi_5(P)$ ，其中 $\boldsymbol w_*$ 是学习参数，使用正则化最小二乘目标（岭回归）进行优化：
$\boldsymbol w_*=\mathop{\arg\min}_{\hat{\boldsymbol w_*}}\sum^N_i(t^i_*-\hat{\boldsymbol w}_*^T\phi_5(P^i))^2+\lambda\|\hat{\boldsymbol w}_*\|^2$
其中回归目标 $t_*$ 由训练对 $(P, G)$ 得到：
$t_x = (G_x - P_x)/P_w\\ t_y = (G_y - P_y)/P_h\\ t_w = \log(G_w/P_w)\\ t_h = \log(G_h/P_h)$
仅使用靠近GT边界框的提议框 $P$ 进行训练，即将 $P$ 与 $G$ 进行指定：当且仅当IOU大于阈值（0.6）时，才将 $P$ 与具有最大IoU的GT边界框 $G$ 匹配。