学习笔记(十)Faster R-CNN论文

论文对象: Faster R-CNN
对照模型: Fsat R-CNN
优化部分: 将selective search 部分和提取feature maps两部分用一个CNN网络完成提取,这个在论文中被称为RPN(Rrgion Proposal Network)所取代(主要提升的点)
注:此处的CNN网络可以使用任何网络,不受限制
见下图对比
在这里插入图片描述
在这里插入图片描述
详解RPN:
在这里插入图片描述

RPN主要分为两条线,
生成anchors–>softmax分类器提取positive anchors–>bbox regression回归positive anchors生成偏移量–>生成最终Proposals
即一条是相当于副回路,作用是测定位置实现计算对于anchors的bounding box regression偏移量,以获得精确的proposal
;另外一条是通过softmax分类anchors获得positive和negative分类

注:anchors,其作用相当于在feature maps的每一个像素点预设定的小框,其数量和大小根据数据集的大小自行设定。再后续的迭代中anchors的大小和数量会变,其主要用于实现RPN的两条路
最后的处理步骤:
(1)利用reg层的偏移量,对所有的原始anchor进行修正
(2)利用cls层的scores,按positive socres由大到小排列所有anchors,取前topN(比如6000个)个anchors
(3)边界处理,把超出图像边界的positive anchor超出的部分收拢到图像边界处,防止后续RoI pooling时proposals超出边界。
(4)剔除尺寸非常小的positive anchor
(5)对剩余的positive anchors进行NMS(非极大抑制)
(6)最后输出一堆proposals左上角和右下角坐标值([x1,y1,x2,y2]对应原图MxN尺度)

RoI pooling:负责收集proposal 并且计算proposal feature maps ,两个输入(最开始CNN提取的初始feature map 和RPN刚刚生成的Proposal)
因为全连接成需要一致的输入特征,这里的proposal大小不同,传统的crop即裁剪会损失完整的结构信息,wrap会破坏图像原始形状,所以使用Rol poling
RoI pooling原理:
RoI pooling会有一个预设的pooled_w和pooled_h,表明要把每个proposal特征都统一为这么大的feature map
(1)由于proposals坐标是基于MxN尺度的,先映射回(M/16)x(N/16)尺度
(2)再将每个proposal对应的feature map区域分为pooled_w x pooled_h的网格
(3)对网格的每一部分做max pooling
(4)这样处理后,即使大小不同的proposal输出结果都是pooled_w x pooled_h固定大小,实现了固定长度输出
Classification
与RPN中的分类不同,RPN只是区分目标和背景,这里的分类是指图像类别的分类

————————————————
本文仅作为个人学习笔记阅读,部分内容出自原博主
原文链接:https://blog.csdn.net/weixin_42310154/article/details/119889682

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值