【目标检测】Faster RCNN算法详解

最新推荐文章于 2024-06-16 19:42:47 发布

liulina603

最新推荐文章于 2024-06-16 19:42:47 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/liulina603/article/details/80811888

版权

Faster R-CNN是一种基于深度学习的目标检测算法，它结合了Region Proposal Network（RPN）与Fast R-CNN，实现端到端训练。RPN负责生成高质量的候选区域，然后通过RoI Pooling进行特征提取和分类。网络结构包括共享的卷积层、RPN的分类和回归层以及Fast R-CNN的分类和边框回归层。Faster R-CNN通过非极大值抑制减少重复框，提高检测精度，相比早期的RCNN和Fast R-CNN，速度更快，性能更优。

摘要由CSDN通过智能技术生成

参考：https://blog.csdn.net/shenxiaolu1984/article/details/51036677

https://blog.csdn.net/u014696921/article/details/52824097

第二个网址，比较详细

目标检测的一般结构：

【RCNN系列】【超详细解析】

一、基于Region Proposal（候选区域）的深度学习目标检测算法

Region Proposal（候选区域），就是预先找出图中目标可能出现的位置，通过利用图像中的纹理、边缘、颜色等信息，保证在选取较少窗口（几千个甚至几百个）的情况下保持较高的召回率（IoU，Intersection-over-Union）。

Region Proposal方法比传统的滑动窗口方法获取的质量要更高。

比较常用的Region Proposal方法有：SelectiveSearch(SS，选择性搜索)、Edge Boxes（EB）。

基于Region Proposal目标检测算法的步骤如下：

其中：

CNN方法见http://blog.csdn.net/qq_17448289/article/details/52850223。

边框回归（Bouding Box Regression）：是对RegionProposal进行纠正的线性回归算法，目的是为了让Region Proposal提取到的窗口与目标窗口（Ground Truth）更加吻合。

Selective Search1（SS）

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下：
- 使用一种过分割手段，将图像分割成小区域
- 查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置
- 输出所有曾经存在过的区域，所谓候选区域

合并规则

优先合并以下四种区域：
- 颜色（颜色直方图）相近的
- 纹理（梯度直方图）相近的
- 合并后总面积小的
- 合并后，总面积在其BBOX中所占比例大的

第三条，保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域。

例：设有区域a-b-c-d-e-f-g-h。较好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。
不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四条，保证合并后形状规则。

例：左图适于合并，右图不适于合并。

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来，速度较快。

多样化与后处理

为尽可能不遗漏候选区域，上述操作在多个颜色空间中同时进行（RGB,HSV,Lab等）。在一个颜色空间中，使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。

AlexNet网络默认crop_size的尺寸是227*227

整体框架

图3 Fast R-CNN框架

特征提取网络

基本结构

图像归一化为224×224直接送入网络。

前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域（图像序号×1+几何位置×4，序号用于训练）？。

这里写图片描述

激活函数通常有如下一些性质：

非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。

可微性：当优化方法是基于梯度的时候，这个性质是必须的。

单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。

：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心的去设置初始值。

输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate.

这些性质，也正是我们使用激活函数的原因！

Faster R-CNN - 目标检测详解

2. 网络结构

Faster R-CNN 的结构是复杂的，因为其有几个移动部件. 这里先对整体框架宏观介绍，然后再对每个部分的细节分析.

问题描述：

针对一张图片，需要获得的输出有：

边界框(bounding boxes) 列表；

每个边界框的类别标签；

每个边界框和类别标签的概率.

Figure 1. Faster R-CNN 结构

首先，输入图片表示为Height×Width×DepthHeight×Width×Depth 的张量(多维数组)形式，经过预训练 CNN 模型的处理，得到卷积特征图(conv feature map). 即，将 CNN 作为特征提取器，送入下一个部分.

这种技术在迁移学习(Transfer Learning)中比较普遍，尤其是，采用在大规模数据集训练的网络权重，来对小规模数据集训练分类器. 后面会详细介绍.

然后，RPN(Region Propose Network) 对提取的卷积特征图进行处理. RPN 用于寻找可能包含 objects 的预定义数量的区域(regions，边界框).

基于深度学习的目标检测中，可能最难的问题就是生成长度不定(variable-length)的边界框列表. 在构建深度神经网络时，最后的网络输出一般是固定尺寸的张量输出(采用RNN的除外). 例如，在图片分类中，网络输出是 (N,)(N,) 的张量，NN 是类别标签数，张量的每个位置的标量值表示图片是类别 labelilabeli 的概率值.

在 RPN 中，通过采用 anchors 来解决边界框列表长度不定的问题，即，在原始图像中统一放置固定大小的参考边界框. 不同于直

最低0.47元/天解锁文章

liulina603

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【目标检测】Faster RCNN算法详解

整体框架图3 Fast R-CNN框架特征提取网络基本结构图像归一化为224×224直接送入网络。前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域（图像序号×1+几何位置×4，序号用于训练）？。激活函数通常有如下一些性质：非线性：当激活函数是线性的时候，一个两层的...
复制链接

扫一扫