R-CNN(Regions with CNN features)学习笔记

最新推荐文章于 2024-04-21 15:46:09 发布

tomeasure

最新推荐文章于 2024-04-21 15:46:09 发布

阅读量1.3k

点赞数

分类专栏：深度学习目标检测 CV 文章标签： R-CNN 边界框回归目标检测图像计算机视觉

本文链接：https://blog.csdn.net/qq_29695701/article/details/100624164

版权

深度学习同时被 3 个专栏收录

45 篇文章 3 订阅

订阅专栏

24 篇文章 2 订阅

订阅专栏

目标检测

19 篇文章 1 订阅

订阅专栏

R-CNN(Regions with CNN features)学习笔记

原论文：《Rich feature hierarchies for accurate object detection and semantic segmentation》
代码地址：（matlab）https://github.com/rbgirshick/rcnn

一、模型的使用步骤

在这里插入图片描述

对一张图片生成多个候选区域；
用CNN对每个候选区域进行特征提取；
用线性SVM分类器对特征进行分类打分；
使用边界框回归获取目标检测到的窗口。

二、模型结构

1. 对一张图片生成多个候选区域

使用选择性搜索算法(Selective Search)生成2000个候选区域。

2. 用CNN对每个候选区域进行特征提取

使用AlexNet提取每个候选区域的特征向量。

输入给AlexNet的候选区域的尺寸全都调整为 $227 \times 227$ ；
这里的AlexNet拥有5个卷积层和2个全连接层，关于AlexNet的详细信息可参考论文《ImageNet Classification with Deep Convolutional Neural Networks》；
对每个候选区域采用的缩放方式：先将候选框往外扩大16个像素，再进行各向异性式的缩放，可参考原论文附录A。

3. 用线性SVM分类器对特征进行分类

对每个类别用对应的线性SVM进行打分，然后对所有打分后的区域使用NMS算法（非极大值抑制，Non-Maximum Suppression）进行筛选，这些被筛掉的候选框与高分候选框的重叠比较大（IoU值过大）。

4. 边界框回归

进行边界框回归的原因是：候选框 $P$ 可能与实际框 $G$ 差距过大。所以要将候选框 $P$ 进行矫正得到 $\hat{G}$ ，使 $\hat{G}$ 与实际框 $G$ 比 $P$ 更加接近。
算法描述：

输入：

特征提取器（AlexNet）从候选区域 $P$ 提取到的特征(the $pool_5$ feature)： $\Phi_5(P)$ ;
候选-实际框的配对构成的集合： $\{(\pmb{P}^i,\pmb{G}^i)\}_{i=1,...,N}$ 。

其中， $\pmb{P}^i=(P^i_x,P^i_y,P^i_w,P^i_h)$ ， $\pmb{G}^i=(G^i_x,G^i_y,G^i_w,G^i_h)$ ， $x, y, w, h$ 分别是区域 $P$ 与 $G$ 的中心坐标、宽高。

目标：
通过训练，得到一个从 $P$ 到 $\hat{G}$ 的变换， $\hat{G}$ 为 $G$ 的近似，而 $\hat{G}$ 就是我们想要的目标检测的结果框。
方法介绍：
已知：定义 $t=(t_x,t_y,t_w,t_h)$ 为 $P$ 与 $G$ 之间的距离：
$\begin{aligned} t_x&=(G_x - P_x)/P_w \\ t_y&=(G_y - P_y)/P_h \\ t_w&=log(G_w/P_w) \\ t_h&=log(G_h/P_h) \\ \end{aligned}$
方式：通过训练得到 $t$ 的近似值 $d$ ，使模型能够根据 $d$ 的值将 $P$ 调整为 $G$ 的近似值 $\hat{G}$ （其中 $d$ 视为 $P$ 的函数），这样得到的 $\hat{G}$ 比直接使用 $P$ 效果更好：
$\begin{aligned} \hat{G}_x &= P_w d_x(P) + P_x \\ \hat{G}_y &= P_h d_y(P) + P_y \\ \hat{G}_w &= P_w e^{d_w(P)} \\ \hat{G}_h &= P_h e^{d_h(P)} \\ \end{aligned}$
为了达到这个目的，将 $d_*(P)$ 视为 $\Phi_5(P)$ 的线性函数： $d_*(P)=w^T_*\Phi_5(P)$ ，并使用如下的损失函数（MSE）：
$w_*= \underset{\hat{w}_*}{argmin} \sum^N_i(t^i_*-\hat{w}^T_*\Phi_5(P^i))^2+\lambda||\hat{w}_*||^2$

这里，通过训练来优化 $\hat{w}^T_*$ 即可。
这样的效果是：得到 $\hat{w}^T_*$ 后，就可以得到 $d_*(P)=w^T_*\Phi_5(P)$ ，再结合之前得到的 $P_*$ ，进而得到 $\hat{G}_*$ ，它正是我们想要得到的比 $P_*$ 更好的区域。
此外，原论文中，有两点要注意：1. $\lambda=1000$ ；2. 在将 $P$ 与 $G$ 进行配对时，对某一个 $G$ ，仅考虑与其具有最大IoU的P。

三、训练

分为两步：预训练与微调。详情可参考《R-CNN论文详解（论文翻译）》

四、其他

原论文对模型学到的图像特征进行了可视化分析、对模型进行消融研究、错误原因的分析、边界框回归计算、语义分割等研究。这部分内容可以参考上面提到的对论文的翻译的博客。

参考材料：

R-CNN论文详解（论文翻译）（翻译的很详细）
RCNN的理解（候选区域的缩放方式及其他有关R-CNN的概念）
目标检测之 IoU（有代码）
Selective Search 论文学习笔记

tomeasure

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
R-CNN(Regions with CNN features)学习笔记

R-CNN(Regions with CNN features)学习笔记原论文：《Rich feature hierarchies for accurate object detection and semantic segmentation》代码地址：（matlab）https://github.com/rbgirshick/rcnn一、模型的使用步骤对一张图片生成多个候选区域；...
复制链接

扫一扫

专栏目录