R-CNN 详解

最新推荐文章于 2024-07-12 11:45:29 发布

*青云*

最新推荐文章于 2024-07-12 11:45:29 发布

阅读量679

点赞数

分类专栏：目标检测文章标签：神经网络卷积计算机视觉

本文链接：https://blog.csdn.net/m0_45962052/article/details/104720514

版权

目标检测专栏收录该内容

12 篇文章 9 订阅

订阅专栏

R-CNN 详解

Rich feature hierarchies for accurate object detection and semantic segmentation

论文原文

R-CNN 的 2 个主要思想：
（1）使用卷积神经网络来提取生成的 region proposals 中的特征。
（2）当样本数据匮乏时。先在大型的图像识别的数据集上进行监督预训练，然后在目标检测上微调，对性能有显著的提升。

一、算法流程

1. 生成 region proposals

使用 selective search 生成 2000 个左右的 region proposals

2. CNN 特征提取

使用 CNN 对生成的 region proposals 提取特征

3. SVM 分类

使用多个 SVM 分类器分类

4. 位置精修

使用回归器，进行边界回归

二、流程详解

（一）生成 region proposals

使用 selective search 生成 2000 个左右的 region proposals

selective search 只是生成 region proposals 的一种方法，还有很多其他的方法。其主要思想就是：输入一张图片，首先通过图像分割的方法获得很多小的区域，然后对这些小的区域不断进行合并，一直到无法合并为止。此时这些原始的小区域和合并得到的区域的就是我们得到的 region proposals。

（二）CNN 特征提取

使用 CNN 对生成的 region proposals 提取特征

1、预处理

（A）原 region proposals。（B）tightest square with context。（C）tightest square without context。（D）warp
第一、第三行添加 context padding（P = 0），第二、第四行添加 context padding（P = 16）

为了适应卷积神经网络的固定的输入（AlexNet：227 x 227），我们对生成的 region 进行变换。变换的策略有如下两种：

1、tightest square

（1）with context（图像中的上下文 context 是指 ROI 周边的像素）
将 region 沿着短边用原图填充为正方形，到原图像的边界还未填充为正方形时使用原图像的均值填充，然后将此时的图像 resize 至模型的输入大小，以适应模型的输入。在输入 CNN 模型时需要减去此图像的均值

（2）without context
将 region 直接使用图像均值填充为正方形，然后将此时的图像 resize 至模型的输入大小。在输入 CNN 模型时需要减去图像的均值。

2、warp
直接暴力的将图像 resize 至模型的输入大小。这种方法可能会导致图形的拉伸。不过在实现 R-CNN 网络时，作者使用的就是这种方法。

以上所有的方法：
（1）在输入CNN模型时都需要减去均值。
（2）可以再添加 context padding（P），
即先添加 padding（P），填充为正方形后再进行 resize至模型输入大小。作者尝试的最佳的 P 值为 16。

2、训练阶段

预训练：
使用 ILSVRC 2012 对 AlexNet 网络进行预训练，学习率为0.01。然后将最后一层的 1000 分类的 softmax 换为 21 类（20 分类 + 1 背景）

注意：
（1）实际上作者做了消融研究，表明对最终影响最大的是前面的卷积层，而不是后面的全连接层，不过为了不丢失精度，这里没有去掉后面的全连接层。
（2）卷积神经网络的结构可以替换，也就是可以使用其他的模型（比如 VGG16），且使用模型的效果会对最终的结果产生巨大的影响。

fine-tuning：
region proposals 的 $\ge 0.5$ 的 region 作为正样本。 $\lt 0.5$ 的 region 作为负样本。对于每个 batch，使用 32 个正样本和 96 个负样本（batch size = 128）输入预训练过的 AlexNet 进行 fine-tuning 。学习率为预训练时的 $\frac{1}{10}$ ，即 0.001。

3、测试阶段

将 region proposals（预处理后的）放入网络中生成 4096 维的特征向量。

（三）SVM 分类

使用多个 SVM 分类器分类

1、训练阶段

每一个类有一个 SVM 分类器，需要再额外加一个背景类。使用 ground truth 作为正例，使用 IOU $\lt$ 0.3 的作为负例，先经过 hard negative mining method（详解见下面(1)）进行筛选，再输入SVM进行训练。（其中 threshold 0.3 是经过网格搜索，搜索 ${0,0.1,0.2,..., 0.5\}$ 得到的）

注意：在 CNN 的训练阶段和 SVM 的训练阶段的正负样例的定义不同。因为如果在 CNN 网络部分就使用 ground truth 作为正例，样本量就太小，不足进行模型的训练，容易过拟合。而如果在 SVM训练阶段使用 $IOU\ge0.5$ 作为正例，会发生尺度的抖动，使目标检测的结果不精确（作者经过试验证明）

（1）Hard Negative Mining Method

对于 hard Negative Mining（困难样本挖掘）可以理解为错题集，你不会把所有的错题都放到错题集中，你会挑出那些你最容易错的题放到错题集中，Hard Negative Mining Method 就是这样。

首先是negative，即负样本，其次是hard，说明是困难样本，也可以说是容易将负样本看成正样本的那些样本，例如roi里没有物体，全是背景，这时候分类器很容易正确分类成背景，这个就叫 easy negative；如果roi里有二分之一个物体，标签仍是负样本，这时候分类器就容易把他看成正样本，这时候就是 had negative。hard negative mining 就是多找一些 hard negative 加入负样本集，进行训练，这样会比 easy negative 组成的负样本集效果更好。

2、测试阶段

将经过 CNN 提取的特征向量直接输入各个 SVM 分类器，预测其属于此类的概率。后使用 NMS 对 bounding box 进行剔除。

（1）NMS

NMS 要翻译成 “非极大值抑制”，而不是 “非最大值抑制”，因为极大值有多个，而最大值只有一个。在目标检测中，我们有多个 bounding box。

算法步骤：
先对每个框的score进行排序，首先选择第一个，也就是 score 最高的框，它一定是我们要保留的框。然后拿它和剩下的框进行比较，如果 IOU 大于一定阈值，说明两者重合度高，应该去掉，这样筛选出的框就是和第一个框重合度低的框，第一次迭代结束。第二次从保留的框中选出score第一的框，重复上述过程直到没有框保留了。

import numpy as np


def nms(dets, thresh):
    """Pure Python NMS baseline."""
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]
    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    order = scores.argsort()[::-1]
    keep = []
    while order.size > 0:
        i = order[0]
        keep.append(i)
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]]）
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        ovr = inter / (areas[i] + areas[order[1:]] - inter)
        inds = np.where(ovr <= thresh)[0]
        order = order[inds + 1]
    return keep