R-CNN

最新推荐文章于 2024-07-22 09:26:29 发布

Oliver_-_

最新推荐文章于 2024-07-22 09:26:29 发布

阅读量219

点赞数

本文链接：https://blog.csdn.net/qq_35732097/article/details/79585237

版权

CNN能够极大的提高目标检测的性能，主要解决两个问题：如何用深度网定位目标？如何用较少的样本训练 high-capacity 模型?
第一个问题：如何定位？
- 看成回归问题，表现不好。
- 滑动窗口探测器，build a sliding-window detector，通常用于检测特定的目标。Overview：
  1）生成2k个区域，affine image warping到固定尺寸的输入；这2k个区域和类别无关。
  2）把每个区域送入CNN，CNN提取特征，特征是固定长度的向量。
  3）特征向量送入一对多SVMs。
第二个问题：如何用较少的数据训练一个 high-capacity CNN？
- 样本较少的情况下，先在大的辅助数据集上做监督预训练，再在自己的数据集合上做微调，可以获得较大的性能提升。
- 系统非常的高效率，算的比较快。（下面会解释）
CNN到底学习到了什么?
- 即使去掉540W个参数中的94%，网络的检测性能只减少很少。

Region proposals:有很多产生候选区的方法，这里使用 selective search。
Feature extraction:使用AlexNet，最终输出特征向量 $\in R^{4096}$ 。采用 padding=16 的各向异性变形，将候选区扩展为 227*227 的 AlexNet 的输入。

对于一张图片，生成2000个候选区，扩展为 227*227 的输入送入 AlexNet 。
网络做特征提取产生4096维的特征，features $\in R^{2000 \times 4096}$ ， SVM Weights $\in R^{4096 \times 20}$ ，相乘得到矩阵 $\in R^{2000 \times 20}$ 表示2000个候选区在20个类别上的分值。
在每个类别上，即每一列上做非极大值抑制，目的是剔除重叠的候选区。

（文中分析了运行时间，这里不再赘述。）

监督预训练：训练集合选择ILSVRC 2012，仅有类别，没有 bounding box。
在目标检测领域做微调：AlexNet输出层原本1000个类别，修改成21个类别（20个VOC类别加上一个背景）。依然以分类问题做训练。对于一个候选区，与ground-truth的IoU >= 0.5时，标签为正例（相应类别）；IoU < 0.5时为负例（背景类）。步长从 0.01 下降到 0.001。每次迭代使用128个样本，其中正例32个，负例96个。训练时提高了正例候选区的比例，因为正例比背景少太多。
分类器：训练分类器和训练CNN时对候选区采用了不同的标注标准。经过交叉验证，IoU <0.3的候选区作为负例；正例即为 ground-truth bounding boxes。由于训练集合太大，采用了hard negative mining method。

（为什么在微调和SVM训练两个阶段，正负样本的划分不同？为什么还要训练一个分类器，而不是直接采用CNN 的最后一层？）

这里没有用反卷积，而是观察什么样的输入可以更大程度的激活某个神经元。

在有微调、没有微调两种情况下，不同层的输出做为特征的结构。
这里写图片描述

没有微调（1-3行）时，pool5，f6，f7的性能差不多。fc7的泛化能力甚至不如fc6（46.2%到44.7%）。
没有微调时，移除fc6和cf7两个全连接层后，使用pool5的输出做为特征，网络依然表现得很好。但是到pool5只需要计算整个网络6%的参数。
进行微调（4到7行）之后，性能平均提升了8%，并且pool5，f6，f7的mAP依次升高。预训练中pool5学习到的特征是一般的，共通的；微调之后，fc6、fc7提取的特征，这些特征是domain-specific的，能够训练更好的分类器。
bounding box regression，提高了 3-4%。

分别用20个回归器对上述20个类别中剩余的建议框进行回归操作，最终得到每个类别的修正后的得分最高的bounding box。

参考 http://blog.csdn.net/wopawn/article/details/52133338

关注