7.Rcnn 论文总结

神经网络的研究分为两种
1.研究修改网络结构(层的数量,层与层之间的关系等)。最终目标:准确率高,结构稀疏
(Alexnet , vggnet , goolenet , resnet …)
2.研究网络的应用:分类、检测、分割
分类:结果是或不是
检测:框出物体
分割:分出物体准确轮廓

之前博客中介绍了神经网络的结构研究,接下来将介绍网络的应用(检测)。

RCNN : 基于CNN物体检测的开山之作。(在CNN基础上添加 region proposals)
key insights:
(1)为了定位和分割目标,使用high-capacity卷积神经网络,自底向上region proposals(区域建议)
(2)缺少标记的训练数据时,监督预训练作为辅助工作,再加上特定领域的微调。

在这里插入图片描述

1.Introduction

  • 过去,视觉识别任务使用 SIFT and HOG(blockwise orientation histograms) 解决问题。但是识别发生在多个阶段计算特征,应该是种层级结构。
    “neocognitron”,受层次结构和平移不变性模型的启发。但是缺少监督训练算法。后来引入损失算法,通过随机梯度下降,反向传播可以训练 cnn
    cnn 在1990s 广泛使用,然后就过时了,2012年因为在图像分类中取得显著成果重新复燃(使用非线性修正)

  • ImageNet 结果的重要性引起了激烈讨论:CNN分类结果在多大程度上推广到了目标检测上?
    我们这篇论文首次说明了 cnn 可以在目标检测上有显著成效。解决两个问题:用cnn定位目标,使用少量标注的检测数据训练一个高容量模型。

  • 检测要求定位图片的目标。起初将定位视为一个回归问题,但是效果不好。另一种方法:建立一个滑动窗口检测器,cnn就用的这种方法。为了保持高空间分辨率,cnn通常只有2个卷积和池化。我们也考虑了这个方法,但是我们的网络有5个卷积层和非常大的感受野和步长。这就使滑动窗口在精确定位上成为一个技术挑战
    我们用 “recognition using regions ” 解决cnn 定位问题。生成独立类的区域建议 ,从每个建议中使用cnn提取特征,使用特定类线性SVM分类每个区域。

  • 检测问题面临的另一个挑战就是缺少标记的数据。常规解决是使用无监督预训练,再加上监督训练的微调。
    我们 在一个大的辅助训练集上使用监督预训练,再加上在小数据集上特定领域的微调

  • HOG-like features 的一个优势是可以很方便的理解他们所展示的信息。我们也能深入了解CNN学习到的表象吗? 在探究CNN过程中,我们发现94%的参数可以移除而检测正确率只是稍微下降。卷积层学习到不同的大量特征。
    一个简单的包围框可以显著减少错误定位。
    由于Rcnn在区域上操作,那么很自然就能扩展到语义分割上。产生很好的结果。

2. Object detection with R-CNN

我们的目标检测体系包含三个模块:
(1)生成独立类区域建议。(候选区域)
(2)用 cnn 从每个候选区提取固定大小的特征
(3)一组特定类的线性支持向量机

2.1. Module design

  • Region proposals. 我们用选择性搜索来获取区域建议
    在这里插入图片描述
  • Feature extraction。
    输入图像(候选区)减去平均值,227*227RGB图像通过前向传播经过5个卷积2个全连接。
  • 对每一类目标,使用一个线性SVM二类分类器进行判别
    由于负样本很多,使用hard negative mining方法。

2.2. Test-time detection
Rcnn 可以缩放成千的目标类而不用求助于近似的方法(例如哈希)

实验结论:

  • Much of the CNN’s representational power comes from its convolutional layers
  • pool5 features learned from ImageNet are general and that most of the improvement is gained from learning domain-specific non-linear classifiers on top of them.

补充

基于错误分析,我们实现了一个简单的方法减少定位错误:
训练了一个线性回归模型预测pool5特征的一个新的检测窗口。
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。 回归器对每一类目标,使用一个线性脊回归器进行精修。正则项。
微调候选区域的位置,使得候选框进一步接近物体的bounding box;

本文解决了目标检测中的两个关键问题。

问题一:速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。

问题二:训练集
经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG)。本文则需要训练深度网络进行特征提取。
本文使用识别库进行预训练,而后用检测库调优参数。最后在检测库上评测。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值