RCNN 阅读笔记

Rich feature hierarchies for accurate object detection and semantic segmentation

名字由来:

候选区域与CNN相结合 Region proposals+CNN、

该篇是利用深度学习进行目标检测的开山之作
将深度神经网络用于了目标检测和分割并应用了迁移学习
分成三个部分 第一部分SS算法提取候选区 第二部分特征提取(使用CNN实现) 第三部分 分类器(SVM) 边界框回归器 这两部分都是单独训练的

伯克利团队的一篇论文 在当时还是很牛的

知识点:

特征提取

  1. SIFT 尺度不变特征变换(Scale-invariant feature transform,SIFT)
    一种检测局部特征的算法,可以帮助定位图像中的局部特征,该算法通过求一幅图中的特征点的描述子得到特征并进行图像特征点匹配,基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关 。
    共四个关键步骤
    构造比例空间:确保要素与比例无关
    关键点本地化:确定合适的特征或关键点
    方向分配:确保关键点是角度不变
    关键点描述符:为每个关键点分配独一的指纹

论文:D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004

参考:
文章1
文章2
文章3 推荐
视频1
视频2
视频3
2. HOG 方向梯度直方图(Histogram of Oriented Gradient, HOG)
一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征, 局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述,本质为梯度的统计信息,而梯度主要存在于边缘的地方
本质去掉背景保留目标轮廓
参考

论文 N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 1

文章1
文章2
文章3 推荐
视频1 推荐

DPM是HOG(Histograms of Oriented Gradients)的扩展
先计算梯度方向直方图,然后用SVM

rcnn结构

1.生成类别无关区域提案 即候选区
生成候选区知识点:

  1. objectness
    提取目标的算法,基于目标与图片上其他的区别,提出相关的区分方式 分别为 多尺度下的显著性(Multi-scale Saliency),框内外颜色对比度(Color Contrast),靠近框边界的边缘密度(Edge Density),跨越超像素的程度(Superpixels Straddling)
    参考
    论文B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012. 2
    文章1
    文章1
    文章1
  2. selective search 使用
    尽可能遍历所有的尺度,通过图像分割,先得到小尺度的区域,然后使用一些合并策略一次次合并得到大的尺寸,衡量每个尺寸的可能性  得到了层次化的区域结构
    参考
    文章

论文 J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders.
Selective search for object recognition. IJCV, 2013. 1, 2, 3,
4, 5, 9

  1. category-independent object proposals 类别无关对象建议

论文I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010. 3

  1. constrained parametric min-cuts (CPMC) 约束参数最小化

论文 J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts.
TPAMI, 2012. 2, 3

以上是基于图像的纹理、轮廓、色彩等特征的
5. multi-scale combinatorial grouping 多尺度组合分组

论文 P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Ma- ´
lik. Multiscale combinatorial grouping. In CVPR, 2014. 3

  1. Ciresan et al

论文D. Cires¸an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with
deep neural networks. In MICCAI, 2013. 3

2.从每个区域提取固定长度特征向量的大型卷积神经网络
数据的处理

1.对图片扩充为正方形并缩放到所需大小
2.不保留横纵比的情况下缩放到所需大小
3.深度卷积神经网络(CNN)计算每个提案的特征 这里使用cnn
4. 一组特定类别的线性SVM

在这里插入图片描述

需要数据的阶段 (1)CNN微调,(2)检测器SVM训练(3)检测框回归训练

具体过程

提取2K区域 ――> 缩放到227227――>cnn-去掉最后一层所有输出为4096维特征 即20004096—》svm (根据分类不同svm不同 )这里是409620的权值矩阵
2000
4096 * 409620 = 200020 然后非极大值仰止 得出精确的候选框 反向:回归器(共四个值)对位置修正(IOU大于某个阈值)

相关思想

1.特征提取是一个逐步抽象的过程,需要层次化处理
2. CNN的大部分表达能力来自其卷积层

名词解释

正样本是我们想要正确分类出的类别所对应的样本 负样本相反

细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部图像信息精准识别图像子类别

领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利用其它领域数据来增强目标领域训练。 领域自适应(Domain Adaptation)是迁移学习中的一种代表性方法,指的是利用信息丰富的源域样本来提升目标域模型的性能。

数据集
PASCAL VOC
ImageNet
ILSVRC2013

视频参考

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值