R-CNN论文详解

本文详细解读了R-CNN(Rich feature hierarchies for accurate object detection and semantic segmentation)论文,介绍了其如何从人工经验特征转向数据驱动的表示学习,通过有监督预训练和小样本微调解决小样本过拟合问题。文章剖析了selective search算法在生成建议框的作用,以及AlexNet CNN在网络预训练和微调中的应用。R-CNN在PASCAL VOC 2010测试集上取得了53.7%的mAP,但处理速度较慢,存在重复计算的问题。
摘要由CSDN通过智能技术生成

这几天在看《Rich feature hierarchies for accurate object detection and semantic segmentation 》,觉得作者的科研素养非常棒,考虑问题很全面而且很有逻辑性;

不过暂时有的地方看的也不是太懂,这里转载了一篇博客中的介绍,博主写的不错;

博客链接:http://blog.csdn.net/wopawn/article/details/52133338

paper链接:链接: https://pan.baidu.com/s/1qYO4vY8 密码: 62fd

paper中相关名词解释:链接: https://pan.baidu.com/s/1nuAhidz 密码: pnsh

再推荐一个博客:http://blog.csdn.net/hjimce/article/details/50187029

&创新点

  1. 采用CNN网络提取图像特征,从经验驱动的人造特征范式HOG、SIFT到数据驱动的表示学习范式,提高特征对样本的表示能力;

  2. 采用大样本下有监督预训练+小样本微调的方式解决小样本难以训练甚至过拟合等问题。



&问题是什么

  1. 近10年以来,以人工经验特征为主导的物体检测任务mAP【物体类别和位置的平均精度】提升缓慢;

  • 随着ReLu激励函数、dropout正则化手段和大规模图像样本集ILSVRC的出现,在2012年ImageNet大规模视觉识别挑战赛中,Hinton及他的学生采用CNN特征获得了最高的图像识别精确度;

  • 上述比赛后,引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮。


  • 【写给小白:一图理解图像分类,图像定位,目标检测和实例分割】 

    这里写图片描述



    &如何解决问题

    。测试过程

    1. 输入一张多目标图像,采用selective search算法提取约2000个建议框;

  • 先在每个建议框周围加上16个像素值为建议框像素平均值的边框,再直接变形为227×227的大小;

  • 先将所有建议框像素减去该建议框像素平均值后【预处理操作】,再依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征【比以前的人工经验特征低两个数量级】,2000个建议框的CNN特征组合成2000×4096维矩阵;

  • 将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘【20种分类,SVM是二分类器,则有20个SVM】,获得2000×20维矩阵表示每个建议框是某个物体类别的得分;

  • 分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些建议框;

  • 分别用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。


  • 。解释分析

    1. selective search 
      采取过分割手段,将图像分割成小区域,再通过颜色直方图,梯度直方图相近等规则进行合并,最后生成约2000个建议框的操作,具体见博客

  • 为什么要将建议框变形为227×227?怎么做? 
    本文采用AlexNet CNN网络进行CNN特征提取,为了适应AlexNet网络的输入图像大小:227×227,故将所有建议框变形为227×227。 
    那么问题来了,如何进行变形操作呢?作者在补充材料中给出了四种变形方式:

    ① 考虑context【图像中context指RoI周边像素】的各向同性变形,建议框像周围像素扩充到227×227,若遇到图像边界则用建议框像素均值填充,下图第二列; 
    ② 不考虑context的各向同性变形,直接用建议框像素均值填充至227×227,下图第三列; 
    ③ 各向异性变形,简单粗暴对图像就行缩放至227×227,下图第四列; 
    ④ 变形前先进行边界像素填充【padding】处理,即向外扩展建议框边界,以上三种方法中分别采用padding=0下图第一行,padding=16下图第二行进行处理;

    经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好,能使mAP提升3-5%。 

    这里写图片描述 

  • CNN特征如何可视化? 
    文中采用了巧妙的方式将AlexNet CNN网络中Pool5层特征进行了可视化。该层的size是6×6×256,即有256种表示不同的特征,这相当于原始227×227图片中有256种195×195的感受视野【相当于对227×227的输入图像,卷积核大小为195×195,padding=4,step=8,输出大小(227-195+2×4)/8+1=6×6】; 
    文中将这些特征视为”物体检测器”,输入10million的Region Proposal集合,计算每种6×6特征即“物体检测器”的激活量,之后进行非极大值抑制【下面解释】,最后展示出每种6×6特征即“物体检测器”前几个得分最高的Region Proposal,从而给出了这种6×6的特征图表示了什么纹理、结构,很有意思。

  • 为什么要进行非极大值抑制?非极大值抑制又如何操作? 
    先解释什么叫IoU。如下图所示IoU即表示(A∩B)/(A∪B) 

    这里写图片描述 

    在测试过程完成到第4步之后,获得2000×20维矩阵表示每个建议框是某个物体类别的得分情况,此时会遇到下图所示情况,同一个车辆目标会被多个建议框包围,这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。 

    这里写图片描述 

    具体怎么做呢? 
    ① 对2000×20维矩阵中每列按从大到小进行排序; 
    ② 从每列最大的得分建议框开始,分别与该列后面的得分建议框进行IoU计算,若IoU>阈值,则剔除得分较小的建议框,否则认为图像中存在多个同一类物体; 
    ③ 从每列次大的得分建议框开始,重复步骤②; 
    ④ 重复步骤③直到遍历完该列所有建议框; 
    ⑤ 遍历完2000×20维矩阵所有列,即所有物体种类都做一遍非极大值抑制; 
    ⑥ 最后剔除各个类别中剩余建议框得分少于该类别阈值的建议框。【文中没有讲,博主觉得有必要做】

  • 为什么要采用回归器?回归器是什么有什么用?如何进行操作? 
    首先要明确目标检测不仅是要对目标进行识别,还要完成定位任务,所以最终获得的bounding-box也决定了目标检测的精度。 
    这里先解释一下什么叫定位精度:定位精度可以用算法得出的物体检测框与实际标注的物体边界框的IoU值来近似表示。

    如下图所示,绿色框为实际标准的卡宴车辆框,即Ground Truth;黄色框为selective search算法得出的建议框,即Region Proposal。即使黄色框中物体被分类器识别为卡宴车辆,但是由于绿色框和黄色框IoU值并不大,所以最后的目标检测精度并不高。采用回归器是为了对建议框进行校正,使得校正后的Region Proposal与selective search更接近, 以提高最终的检测精度。论文中采用bounding-box回归使mAP提高了3~4%。 

    这里写图片描述 

    那么问题来了,回归器如何设计呢? 

    这里写图片描述 

    如上图,黄色框口P表示建议框Region Proposal,绿色窗口G表示实际框Ground Truth,红色窗口G^表示Region Proposal进行回归后的预测窗口,现在的目标是找到P到G^的线性变换【当Region Proposal与Ground Truth的IoU>0.6时可以认为是线性变换】,使得G^与G越相近,这就相当于一个简单的可以用最小二乘法解决的线性回归问题,具体往下看。 
    让我们先来定义P窗口的数学表达式:Pi=(PixPiyPiwPih),其中(PixPiy)表示第一个i窗口的中心点坐标,PiwPih分别为第i个窗口的宽和高;G窗口的数学表达式为:Gi=(GixGiyGiwGih)<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值