fasterRCNN理论笔记

最新推荐文章于 2023-10-19 22:40:23 发布

Zcs_code

最新推荐文章于 2023-10-19 22:40:23 发布

阅读量149

点赞数

分类专栏： faster-rcnn 深度学习文章标签：深度学习 Powered by 金山文档

本文链接：https://blog.csdn.net/rstdj/article/details/129632762

版权

faster-rcnn 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

RCNN:

生成候选框、 ss 算法得到两千个候选框，就要进行两千次正向传播

使用深度网络提取特征

把提取出来的特征放入分类器，进行分类

使用回归器精细修正候选框位置

什么是IoU (Intersection over Union)全称交并比

表示(A交B) /(A并B)

分类的过程中：非极大值抑制剔除重叠建议框：

寻找得分最高的目标--然后计算其他目标与该目标的iou 值，如果他们的iou值大于给定值，就把该目标删除，到最后只留下这个得分最高的目标

在分类的步骤，用该方法（非极大值抑制剔除重叠建议框：）就可以把每一列进行非极大值抑制处理，就能剔除很多重叠的建议框，从而一些保留高质量的建议框#分类。如果没有重叠的，就有多个分数比较高的就可以检测多个目标了

回归的过程中：

上一步通过Ss算法得到的建议框，与实际框Groud Truth （提前标注好的）通过回归分类器，会得到四个参数，分别对应着目标建议框中心点的x偏移量、y偏移量、边界框高度的缩放因子、边界框宽度的缩放因子。通过这四个值，对我们的建议框进行调整，就得到红色边界框。（精细修正过的候选框位置）

fastrcnn：

为什么要设定正负样本？

因为如果没有负样本，可能会让模型认为，因为我没见过错的，所以什么都是对的这种看法

正样本：只要候选框与我们真实目标边界框的iou 大于0.5 就认定他为正样本

softmax：

softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用，就映射成为(0,1)的值，而这些值的累和为1（满足概率的性质），那么我们就可以将它理解成概率，在最后选取输出结点的时候，我们就可以选取概率最大（也就是值对应最大的）结点，作为我们的预测目标！（最终预测到边界框）

边界框回归器:

输出对应N+1个类别的候选边界框回归参数(dx dy dw da dh 共(N+1)x4个参数，分别对应着目标建议框中心点的x偏移量、y偏移量、边界框高度的缩放因子、边界框宽度的缩放因子。通过这四个值，对我们的建议框进行调整，就得到红色边界框。（精细修正过的候选框位置）

Faster Rcnn 框架

和rcnn 比就是他最后三个部分放到一起执行了。（放到一个CNN网络中）

rcnn是对ss生成的2k个候选框均进行卷积，也就是要卷积2k次；但是fast-rcnn，是对整体做卷积，再映射，仅卷积一次。

上面图中的output中的softmax是类别概率，bbox regressor是边界框回归参数

fasterRcnn：

fasterRcnn和fastrcnn的很相近，其实就是将fastrcnn中的ss算法在fasterrcnn中被替换成了RPN算法

这几步是一个整体，实现了端对端的一个训练过程。之前的fastrcnn是分为两个部分，先是单独使用ss算法去生成region proposal，特征提取部分，分类部分和边界框回归部分这三个部分是在一共cnn网络中进行实现的，相比起来，框架越来越简介且速度越来越快，模块多融合

RPN

滑动窗口的作用

滑动窗口其实就是个3x3的卷积层，你可以简单理解为进一步抽象特征的作用。每个grid cell确实在原图上对应9个anchor，但滑动窗口每滑动到一个位置上只是针对滑动窗口中心（即3x3中间的一个cell）所应对的9个anchor去预测，另外8个cell（3x3窗口中心一圈8个）只是提供了更多的周边信息。

如图，在经过backbone后得到特征图，通过滑动窗口（slidinig Windows）得到k个anchor box，每滑动到一个窗口就生成一个一维向量（具体的值和前面的backbone最后的通道数相关，这个用的是ZF，所以是256，如果是VGG的话，那就是512），这个一维向量分别通过两个全连接层得到2k（一个是前景的概率，一个是背景的概率）个目标概率，和4k个边界框回归参数。（前面说了是因为每个目标建议框又四个参数）