【目标检测】Faster RCNN算法详解

Faster R-CNN是一种基于深度学习的目标检测算法,它结合了Region Proposal Network(RPN)与Fast R-CNN,实现端到端训练。RPN负责生成高质量的候选区域,然后通过RoI Pooling进行特征提取和分类。网络结构包括共享的卷积层、RPN的分类和回归层以及Fast R-CNN的分类和边框回归层。Faster R-CNN通过非极大值抑制减少重复框,提高检测精度,相比早期的RCNN和Fast R-CNN,速度更快,性能更优。
摘要由CSDN通过智能技术生成

 

参考:https://blog.csdn.net/shenxiaolu1984/article/details/51036677

https://blog.csdn.net/u014696921/article/details/52824097

第二个网址,比较详细

目标检测的一般结构: 

 

【RCNN系列】【超详细解析】

 

一、基于Region Proposal(候选区域)的深度学习目标检测算法
Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率(IoU,Intersection-over-Union)。

 

 

 

Region Proposal方法比传统的滑动窗口方法获取的质量要更高。

比较常用的Region Proposal方法有:SelectiveSearch(SS,选择性搜索)、Edge Boxes(EB)

基于Region Proposal目标检测算法的步骤如下:

其中:

CNN方法见http://blog.csdn.net/qq_17448289/article/details/52850223

边框回归(Bouding Box Regression):是对RegionProposal进行纠正的线性回归算法,目的是为了让Region Proposal提取到的窗口与目标窗口(Ground Truth)更加吻合。

Selective Search1(SS)

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下: 
- 使用一种过分割手段,将图像分割成小区域 
- 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置 
- 输出所有曾经存在过的区域,所谓候选区域

 

合并规则

优先合并以下四种区域: 
- 颜色(颜色直方图)相近的 
- 纹理(梯度直方图)相近的 
- 合并后总面积小的 
- 合并后,总面积在其BBOX中所占比例大的

第三条,保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

 

第四条,保证合并后形状规则。

 

例:左图适于合并,右图不适于合并。 

 

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。

多样化与后处理

为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。

AlexNet网络默认crop_size的尺寸是227*227

 

 

 

整体框架

 

 

                                             图3  Fast R-CNN框架

特征提取网络

基本结构

图像归一化为224×224直接送入网络。

前五阶段是基础的conv+relu+pooling形式,在第五阶段结尾,输入P个候选区域(图像序号×1+几何位置×4,序号用于训练)?。 

这里写图片描述

 

激活函数通常有如下一些性质:

  • 非线性: 当激活函数是线性的时候,一个两层的神经网络就可以逼近基本上所有的函数了。但是,如果激活函数是恒等激活函数的时候(即),就不满足这个性质了,而且如果MLP使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的。
  • 可微性: 当优化方法是基于梯度的时候,这个性质是必须的。
  • 单调性: 当激活函数是单调的时候,单层网络能够保证是凸函数。
  • : 当激活函数满足这个性质的时候,如果参数的初始化是random的很小的值,那么神经网络的训练将会很高效;如果不满足这个性质,那么就需要很用心的去设置初始值。
  • 输出值的范围: 当激活函数输出值是 有限 的时候,基于梯度的优化方法会更加 稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是 无限 的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate.

这些性质,也正是我们使用激活函数的原因!

 

 

Faster R-CNN - 目标检测详解

2. 网络结构

Faster R-CNN 的结构是复杂的,因为其有几个移动部件. 这里先对整体框架宏观介绍,然后再对每个部分的细节分析.

问题描述:

针对一张图片,需要获得的输出有:

  • 边界框(bounding boxes) 列表;
  • 每个边界框的类别标签;
  • 每个边界框和类别标签的概率.
  •                                                                            Figure 1. Faster R-CNN 结构
  • 首先,输入图片表示为Height×Width×DepthHeight×Width×Depth   的张量(多维数组)形式,经过预训练 CNN 模型的处理,得到卷积特征图(conv feature map). 即,将 CNN 作为特征提取器,送入下一个部分.

    这种技术在迁移学习(Transfer Learning)中比较普遍,尤其是,采用在大规模数据集训练的网络权重,来对小规模数据集训练分类器. 后面会详细介绍.

    然后,RPN(Region Propose Network) 对提取的卷积特征图进行处理. RPN 用于寻找可能包含 objects 的预定义数量的区域(regions,边界框).

    基于深度学习的目标检测中,可能最难的问题就是生成长度不定(variable-length)的边界框列表. 在构建深度神经网络时,最后的网络输出一般是固定尺寸的张量输出(采用RNN的除外). 例如,在图片分类中,网络输出是 (N,)(N,) 的张量,NN 是类别标签数,张量的每个位置的标量值表示图片是类别 labelilabeli 的概率值.

    在 RPN 中,通过采用 anchors 来解决边界框列表长度不定的问题,即,在原始图像中统一放置固定大小的参考边界框. 不同于直

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值