【论文学习笔记001】R-CNN

最新推荐文章于 2023-04-09 19:05:22 发布

小鹏聊智驾

最新推荐文章于 2023-04-09 19:05:22 发布

阅读量276

点赞数 1

分类专栏： 2D目标检测文章标签： RCNN Region Proposal bbox regression Object decetion

本文链接：https://blog.csdn.net/chiyukunpeng/article/details/100798238

版权

24 篇文章 1 订阅

订阅专栏

题目	Rich feature hierarchies for accurate oject detection and semantic segmentation针对高准确度的目标检测与语义分割的多特征层级
作者	Ross Girshick，Jeff Donahue, Trevor Darrell, Jitendra Malik
年份	2014
期刊	Computer Vision and Pattern Recognition
论文地址	https://arxiv.org/pdf/1311.2524.pdf
项目地址	https://github.com/rbgirshick/rcnn

在这里插入图片描述

R-CNN 采用的是 Selective Search 算法(选择性搜索)。
传统算法使用穷举法或者滑动窗口选出所有物体可能出现的区域框，就是在原始图片上进行不同尺度不同大小的滑窗，获取每个可能的位置。而这样做的缺点就是复杂度太高，产生了很多的冗余候选区域，而且由于不可能每个尺度都兼顾到，因此得到的目标位置也不可能那么准，在现实当中不可行。而选择性搜索有效地去除冗余候选区域，使得计算量大大的减小。

R-CNN 抽取了一个 4096-D 的特征向量，采用的是 Alexnet，基于 Caffe 进行代码开发
为了与 Alexnet 兼容，R-CNN无视候选区域的大小和形状，统一变换到 227*227 的尺寸。但在对 Region 进行变换的时候，首先对这些区域进行膨胀处理，在其 box 周围附加了 p 个像素，也就是人为添加了边框，在这里 p=16，再进行各向异性缩放。

两个因素可以让目标识别变得高效。

采取迁移学习，提取在 ILSVRC 2012 的模型和权重，然后在 VOC 上进行 fine-tune。
ImageNet 的训练当中需要预测 1000 个类别，而 R-CNN 在 VOC 上进行迁移学习时，神经网络只需要识别 21 个类别( VOC 规定的 20 个类别加上背景这个类别)
R-CNN 将候选区域与 GroundTruth中的 box 标签相比较，采取非极大性抑制(NMS)，如果 IoU > 0.5，说明两个对象重叠的位置比较多，于是就可以认为这个候选区域是 Positive，否则就是 Negative
训练策略是：采用 SGD 训练，初始学习率为 0.001，mini-batch 大小为 128

在CNN中，第一层可以直接用来显示，通常他们是为了捕捉物体边缘，及突出的颜色信息，但越往后的卷积层越抽象，这个时候进行可视化就是一个挑战了。
R-CNN 将 pool5 作为可视化对象，它的 feature map 是 6x6x255 的规格，可以理解为有 256 个小方块，每个方块对应一个特征。
思路是挑选一个特征出来，把它直接当成一个物体分类器，然后计算它们处理不同的候选区域时，activation 的值，这个值代表了特征对这块区域的响应情况，然后将 activation 作为分数排名，取前几位，然后显示这些候选区域，自然也可以清楚明白，这个 feature 大概是什么。

fc6 与 pool5 构成全连接，为了计算 feature 它会乘以一个 4096x9216 的权重矩阵，然后在与一组 bias 相加，所以它有 3700 多万的参数。fc7 是最后一层，它的权重矩阵是 4096x409,它的参数有 1678 万多的参数。
但在 PASCAL 上不做 fine-tune 处理，直接测试，可以发现 fc7 的意义没有 fc6 大，甚至移除它之后，对 mAP 没有影响。移除 fc7 就表示可以减少将近 1800 万个参数。同时移除 fc6 和 fc7 并没有多大的损失，甚至结果还要好一点点。
神经网络最神奇的力量来自卷积层，而不是全连接层
fine-tune 后 fc6 与 fc7 提升的效果明显。pool5 从 ImageNet 训练集中学习了物体的泛化能力，而能力的提升则是通过特定领域的 fine-tune。

RCNN步骤：微调分类模型AlexNet——选择性搜索2000个候选框——缩放图像块至固定大小——输入到CNN内提取特征——训练SVM分类器判别特征类别——训练线性回归器调整候选框位置
取得这个性能主要通过两个方面：第一是应用了自底向上的候选框训练的高容量的CNN进行定位和分割物体；第二是“有监督的预训练+特定领域的调优”使用在标签数据匮乏的情况下训练大规模神经网络。

关注

专栏目录