（二十五）深度学习目标检测：RCNN

最新推荐文章于 2022-06-05 14:47:54 发布

淡定的炮仗

最新推荐文章于 2022-06-05 14:47:54 发布

阅读量495

点赞数

分类专栏：人工智能文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_43609475/article/details/116380476

版权

人工智能专栏收录该内容

15 篇文章 3 订阅

订阅专栏

RCNN

RCNN主要分为3个大部分
第一部分产生候选区域；
第二部分对每个候选区域使用CNN提取长度固定的特征；
第三个部分使用一系列的SVM进行分类；
第四个部分使用回归器精细修正候选框位置；
在这里插入图片描述

RCNN的检测流程：

（1）首先输入一张自然图像;
（2）使用Selective Search提取大约2000个候选区域（proposal）;
（3）对每个候选区域的图像进行拉伸形变，使之成为固定大小的正方形图像；
（4）将步骤（3）得到的图像输入到CNN中提取特征;
（5）使用线性的SVM对提取的特征进行分类。
（6）使用根据特征图对先验框进行坐标回归（使用回归器精细修正候选框位置）。

第一部分产生候选区域

（1）首先输入一张自然图像;
（2）使用Selective Search提取大约2000个候选区域（proposal）;
（3）对每个候选区域的图像进行拉伸形变，使之成为固定大小的正方形图像；
在这里插入图片描述

第二部分对每个候选区域使用CNN提取长度固定的特征；

在这里插入图片描述

第三个部分使用一系列的SVM进行分类；

在这里插入图片描述

第四个部分使用线性回归器精细修正候选框位置；

使用全连接进行回归，回归得到平移和缩放参数的结果为Px、Py、Pw、Ph
在这里插入图片描述

Bounding-box回归原理

作者在完成了前面提到的“生成候选区域——CNN提取特征——SVM进行分类”以后，为了进一步的提高定位效果，在文章的附录C中介绍了Bounding-box Regression的处理。Bounding-box Regression训练的过程中，输入数据为N个训练对{(Pⁱ,Gⁱ)},i=1,2,…,N，其中，Pⁱ=(Pⁱ_x,Pⁱ_y,Pⁱ_w,Pⁱ_h)为proposal（先验框）的位置，前两个坐标表示proposal的中心坐标，后面两个坐标分别表示proposal的width和height，而 Gⁱ=(Gⁱ_x,Gⁱ_y,Gⁱ_w,Gⁱ_h)表示groundtruth的位置，
regression的目标就是学会一种映射将P转换为G。

作者认为P到G的过程是通过平移变换和缩放变换得到的。设平移因子为d_x(Pⁱ），d_y(Pⁱ）缩放因子d_w(Pⁱ），d_h(Pⁱ）。在平移变换时添加一项平移系数P_w, P_h。

Gⁱ_x = P_w d_x(Pⁱ）+ Pⁱ_x
Gⁱ_y = P_hd_y(Pⁱ）+ Pⁱ_y
Gⁱ_w = P_wexp(d_w(Pⁱ）)
Gⁱ_h = P_hexp(d_h(Pⁱ）)
Gⁱ = （Gⁱ_x，Gⁱ_y，Gⁱ_w ，Gⁱ_h）

在上面的公式中，我们唯一不知道的是平移因子为d_x(Pⁱ），d_y(Pⁱ）缩放因子d_w(Pⁱ），d_h(Pⁱ）。因此我们要利用回归学习者四个参数。
在学习时，作者使用的是线性回归，假设学习出来的结果为d’_x(Pⁱ）、d’_y(Pⁱ）、d’_w(Pⁱ）、d’_h(Pⁱ），Φ(P）为第i个先验框的特征向量则