学习笔记(八)R-CNN

本文介绍了R-CNN在目标检测领域的应用,重点讲解了其工作原理,包括特征提取、候选区域选择、SVM分类以及预训练和微调过程。同时提到了R-CNN的局限性,如selectivesearch效率低和CNN的串行结构问题。
摘要由CSDN通过智能技术生成

记:开始阅读检测领域的经典论文,R-CNN
Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
初读论文还是不太懂这篇论文具体表现,看来B站讲解之后才慢慢领会

检测领域中的常用指标:
IoU(Intersection over union)是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积(重叠部分只计算一次)的比例。
Precision 指检索出来的条目中(比如:文档、网页等)有多大比例是我们需要的
Recall 指所有我们需要的网页的条目有多大比例被检索出来了
PR曲线 (Precision&Recall 曲线图)常常呈一个矛盾关系
AP(Average Precision)平均精准度,简单来说就是对PR曲线上的Precision面积取均值。
mAP(mean Average Precision) 全类平均正确率(又称全类平均精度)是将所有类别检测的平均正确率(AP)进行综合加权平均而得到的

文章对象:R-CNN(Regions with CNN features.)

本文所提出的R-CNN的处理架构:

首先使用selective search 随机选择2K个图像框,然后因为要使用到CNN来处理图像框,所以要对大小不一的图像进行padding,之后经过CNN的处理(文章中选用了5C+2F的架构。即5个卷积层+2个全连接层),对于得到的4096个特征之后采用SVM分类器进行二分类,而完成二分类得到的概率值即表示整个R-CNN。
其后是对R-CNN的training,预训练+微调,预训练主要是对前半部分的CNN进行预训练,微调是对后半部分的SVM。
最后针对选框不准的问题,提出了R-CNN BB ,即对框进行归一达到修正的效果。
注:SVM 支持向量机(support vector machines ),一种二分类模型

在这里插入图片描述

文章结构:

Introduction:
特征问题,过去研究的进展很慢 ,进步主要可以归结为SIFT特征和HOG特征。在12年时Krizhevsky使用CNNs模型展现的高准确率重新激发了人们对CNNs的兴趣
在一场辩论中的中心焦点是如何把ImageNet上的分类结果推广到PASCAL VOC数据集的目标检测任务上。本文提出在图片分类和目标检测建立联系,进而关注两个问题:①需要用深度网络来定位物体;②用少量的带标签数据集来训练模型
对于在图片中定位目标,本文采用在候选区域识别的方法,步骤:首先在输入图片上生成大约2000个与目标类别无关的候选区域,然后在每一个候选区域上用CNN提取出固定长度的特征向量,我们用仿射变换从每一个候选区域中计算固定大小 CNN,而不管候选区域的大小,最后用线性SVM对每一个候选区域进行分类。其中R-CNN中的R即region候选区域
在这里插入图片描述
对于问题②,一般采用用无监督的预训练,然后用有监督的模型微调。本文的第二个贡献是首先在辅助数据集(ILSVRC)上用有监督的预训练,然后用特定领域的小数据集(PASCAL)进行微调,当数据量很少的时候,这种方式可以有效地训练高精度的CNN。

R-CNN的缺陷:
①selective search 非常耗时。一帧图片2s左右
②CNN的前向传播为串行式。
③三个模块是分开训练的,内存空间消耗大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值