目标检测一条线

最新推荐文章于 2024-07-01 09:19:02 发布

bl128ve900

最新推荐文章于 2024-07-01 09:19:02 发布

阅读量504

点赞数

分类专栏： ML/DL/CV 基础知识

ML/DL/CV 基础知识专栏收录该内容

26 篇文章 3 订阅

订阅专栏

参考：

RCNN- 将CNN引入目标检测的开山之作 https://zhuanlan.zhihu.com/p/23006190

RCNN-> SPP net -> Fast RCNN -> Faster RCNN https://zhuanlan.zhihu.com/p/25600546

一文读懂Faster RCNN https://zhuanlan.zhihu.com/p/31426458

R-CNN主要存在的问题是对于提取的每个Region Proposal，都要分别进行CNN前向传播一次（相当于进行了2000吃提特征和SVM分类的过程），计算量较大，而且CNN的模型确定的情况下只能接受固定大小的输入（也即wraped region的大小固定）。

Faster RCNN

依作者看来，如图1，Faster RCNN其实可以分为4个主要内容：

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals。
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得positive和negative分类，下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。

对多通道图像做1x1卷积，其实就是将输入图像于每个通道乘以卷积系数后加在一起，即相当于把原图像中本来各个独立的通道“联通”在了一起。

其实RPN最终就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的positive anchor，哪些是没目标的negative anchor。所以，仅仅是个二分类而已！

RPN网络结构就介绍到这里，总结起来就是：
生成anchors -> softmax分类器提取positvie anchors -> bbox reg回归positive anchors -> Proposal Layer生成proposals

那么Anchor一共有多少个？原图800x600，VGG下采样16倍，feature map每个点设置9个Anchor，所以：

[公式]