学习笔记（十）Faster R-CNN论文-CSDN博客

本文链接：https://blog.csdn.net/LYHRM/article/details/134030523

论文对象： Faster R-CNN
对照模型： Fsat R-CNN
优化部分： 将selective search 部分和提取feature maps两部分用一个CNN网络完成提取，这个在论文中被称为RPN（Rrgion Proposal Network）所取代（主要提升的点）
注：此处的CNN网络可以使用任何网络，不受限制
见下图对比
在这里插入图片描述

详解RPN：

RPN主要分为两条线，
生成anchors–>softmax分类器提取positive anchors–>bbox regression回归positive anchors生成偏移量–>生成最终Proposals
即一条是相当于副回路，作用是测定位置实现计算对于anchors的bounding box regression偏移量，以获得精确的proposal
；另外一条是通过softmax分类anchors获得positive和negative分类

注：anchors，其作用相当于在feature maps的每一个像素点预设定的小框，其数量和大小根据数据集的大小自行设定。再后续的迭代中anchors的大小和数量会变，其主要用于实现RPN的两条路
最后的处理步骤：
（1）利用reg层的偏移量，对所有的原始anchor进行修正
（2）利用cls层的scores，按positive socres由大到小排列所有anchors，取前topN（比如6000个）个anchors
（3）边界处理，把超出图像边界的positive anchor超出的部分收拢到图像边界处，防止后续RoI pooling时proposals超出边界。
（4）剔除尺寸非常小的positive anchor
（5）对剩余的positive anchors进行NMS（非极大抑制）
（6）最后输出一堆proposals左上角和右下角坐标值（[x1,y1,x2,y2]对应原图MxN尺度）

RoI pooling：负责收集proposal 并且计算proposal feature maps ，两个输入（最开始CNN提取的初始feature map 和RPN刚刚生成的Proposal）
因为全连接成需要一致的输入特征，这里的proposal大小不同，传统的crop即裁剪会损失完整的结构信息，wrap会破坏图像原始形状，所以使用Rol poling
RoI pooling原理：
RoI pooling会有一个预设的pooled_w和pooled_h，表明要把每个proposal特征都统一为这么大的feature map
（1）由于proposals坐标是基于MxN尺度的，先映射回(M/16)x(N/16)尺度
（2）再将每个proposal对应的feature map区域分为pooled_w x pooled_h的网格
（3）对网格的每一部分做max pooling
（4）这样处理后，即使大小不同的proposal输出结果都是pooled_w x pooled_h固定大小，实现了固定长度输出
Classification：
与RPN中的分类不同，RPN只是区分目标和背景，这里的分类是指图像类别的分类

————————————————
本文仅作为个人学习笔记阅读，部分内容出自原博主
原文链接：https://blog.csdn.net/weixin_42310154/article/details/119889682