【论文阅读】RCNN论文详解

何如千泷

已于 2024-05-29 08:31:07 修改

阅读量1.2k

点赞数

分类专栏： # 目标检测论文阅读文章标签：目标检测人工智能计算机视觉

于 2021-11-04 17:52:49 首次发布

本文链接：https://blog.csdn.net/qq_42735631/article/details/121147838

版权

论文阅读同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

目标检测

8 篇文章 1 订阅

订阅专栏

RCNN

1. 目标检测

目标检测是分类任务（bounding box中物体的类别）和回归任务（bounding box的大小及位置）的组合。

2. RCNN的贡献

根据Selective Search算法提取Region proposal候选区域
将每个Region proposal缩放到统一大小后，通过 $CNN$ 提取固定大小的特征
将提取出的特征通过 $S V M$ 进行分类
训练一个回归器，对bounding box边界框进行调整，使其接近ground truth真实边界框

3. Region proposals

本文采用的Selective Search算法来提取候选区域Region proposals

Selective Search 算法：

使用一种过分割手段，将图像分割成小区域
查看现有小区域，按照合并规则合并可能性最高的相邻两个区域。重复直到整张图像合并成一个区域位置
输出所有候选区域

Selective Search 合并规则：

颜色相近：颜色直方图
纹理相近：梯度直方图
合并后总面积小的：重合度高

正负样本选取：

如果某个Region proposal和当前图像上的所有Ground truth中重叠面积最大的那个的IOU大于等于0.5，则该Region proposal作为这个Ground truth类别的正样本，否则作为负样本。另外正样本还包括了Ground Truth。

IOU是计算矩形框 $A 、 B$ 的重合度的公式:
$\frac {A \cap B} {A \cup B}$

4. Feature extraction

在这里插入图片描述

将生成的Region proposal 减去像素平均值后，使用各向异性的缩放方式（直接缩放），将图片缩放到 $227 \times 227$ 大小，随后对每个Region proposal 提取特征，对每个proposal经过五层卷积层以及两层全连接层，在cf7层得到提取出的4096维特征。 提取特征使用了pre-training的AlexNet网络

5. Object category classifier

本文在fc7层提取出特征后，未直接通过最后一层softmax层进行分类，而是将fc7层提取出的特征用于训练SVM分类器。因为SVM得到的效果要更好，原因如下：

我们对于正样本的定义没有强调精确定位，即IOU大于0.5的region proposal便认定为正样本
softmax分类器是根据随机抽样的负样本进行训练的，而SVM是利用hard negative的子集来作为负样本训练

对每一个类别训练一个二分类器，我们用IoU重叠阈值来解决正负样本的问题，在0.3阈值以下的区域被定义为负样本，0.3-0.7阈值的样本被忽略，0.7-1.0的样本被定义为正样本。PS：这里负样本的选定和前面的有所不同。

6. Bounding-box regression

6.1 问题定义

对于Bounding Box一般使用四维向量 $(x, y, w, h)$ 来表示，分别表示窗口的中心点坐标和宽高。

对于下图，红色框 $P$ 代表原始的 $P ro p os a l$ ，绿色框 $G$ 代表 $G ro u n d$ $T r u t h$ ，我们的目标是寻找一个映射使得输入的原始框 $P$ 经过该映射得到一个跟真实框 $G$ 更接近的回归窗口 $\hat G$ 。

即：给定 $P_x,P_y,P_w,P_h)$ ，寻找一种映射 $f$ ，使得 $f(P_x,P_y,P_w,P_h)=(\hat G_x, \hat G_y, \hat G_w, \hat G_h)$ ，并且 $(\hat G_x, \hat G_y, \hat G_w, \hat G_h) \approx (G_x, G_y, G_w, G_h)$
在这里插入图片描述

6.2 解决方案——平移+缩放

先做平移变换 $(\Delta x, \Delta y), \Delta x=P_wd_x(P),\Delta y=P_hd_y(P)$ ，则：
$\hat G_x=P_wd_x(P)+P_x \\ \hat G_y=P_hd_y(P)+P_y$
再做缩放变换 $S_w, S_h), S_w=exp(d_w(P)), S_h=exp(d_h(P))$ ，则：
$\hat G_w = P_wexp(d_w(P)) \\ \hat G_h=P_hexp(d_h(P))$

Bounding-box regression就是学习 $d_x(P), d_y(P), d_w(P), d_h(P)$ 这四个参数

算法流程：

$\rightarrow P=(P_x,P_y,P_w,P_h)；GroundTruth \rightarrow G=(G_x,G_y,G_w,G_h)$

$输出：D_*=(d_x(P), d_y(P), d_w(P), d_h(P))$

计算真正需要的平移量 $t_x,t_y)$ 和缩放量 $t_w,t_h)$
$t_x=(G_x-P_x)/P_w \\ t_y = (G_y - P_y)/P_h \\ t_w=log(G_w/P_w) \\ t_h=log(G_h/P_h)$
构建损失函数： $d_*(P)=(d_x(P),d_y(P),d_w(P), d_h(P))$ 是预测值，真实值 $t_*=(t_x,t_y,t_w,t_h)$ ，我们要让预测值与真实值差距最小，定义均方误差函数：
$Loss=\sum_{i}^N(t_*^i-d_*^i)^2$
函数的优化目标为：
$D_*=arg\min_{d_*}\sum_{i}^N(t_*^i-d_*^i)^2+\lambda||d_*^i||^2$
利用梯度下降法或最小二乘法得到 $D_*$

7. Non-maximum suppression

RCNN 网络会对一个目标标定了多个标定框，使用非极大值抑制算法NMS滤掉多余的标定框

在这里插入图片描述

算法流程:

$输入：B=\{b_1, ..., b_N\}; S = \{s_1, ..., s_N\}; N_t。$

$B表示候选框集合，S表示每个候选框的置信度得分，N_t表示NMS阈值$

$输出： D ：筛选后的候选框, S ：筛选后的候选框的置信度得分$

D = {}
while B not empty:
    # 选取置信度得分最高的 proposal
    m = argmax(S)
    M = b_m
    # 将置信度得分最高的 proposal加入到集合D中
    D = D union M
    # 从集合B中删除置信度得分最高的 proposal
    B = B - M
    # 遍历其他proposal
    for b_i in B:
        # 如果其他proposal与置信度得分最大的proposal的交并比大于给定的阈值，便从集合B中删除，并删除对应的置信度得分
        if IOU(M, b_i) >= N_t:
            B = B - b_i
            S = S - s_i
return D, S

8. RCNN网络结构图

在这里插入图片描述

参考资料：

何如千泷

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】RCNN论文详解

RCNN1. 目标检测目标检测是分类任务（bounding box中物体的类别）和回归任务（bounding box的大小及位置）的组合。2. RCNN的贡献根据Selective Search算法提取Region proposal候选区域将每个Region proposal缩放到统一大小后，通过CNNCNNCNN提取固定大小的特征将提取出的特征通过SVMSVMSVM进行分类训练一个回归器，对bounding box边界框进行调整，使其接近ground truth真实边界框3. Regi
复制链接

扫一扫

专栏目录