2020-10-03 Object detect

最新推荐文章于 2024-06-26 00:10:29 发布

南山又萌

最新推荐文章于 2024-06-26 00:10:29 发布

阅读量222

点赞数

分类专栏：机器视觉文章标签：深度学习 tensorflow

本文链接：https://blog.csdn.net/hnbybts666/article/details/108907773

版权

机器视觉专栏收录该内容

3 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、R-CNN Structure and Find problem to improve
二、SPP-Net Structure and SPP layer
- 1. SPP-Net Structure
- 2. SPP layer
三、Fast R-CNN Structure and Improved based on SPP-Net
四、从古典目标识别到Fast R-CNN总结
五、Faster R-CNN Structure and RPN Structure
- 1. Faster R-CNN Structure
- 2. RPN Structure
六、详解Faster R-CNN论文RPN中的3乘3对应原图感受野大小 and K-Means可以改进anchors的大小
- 1. 详解Faster R-CNN论文RPN中的3乘3对应原图感受野大小
- 2. K-Means可以改进anchors的大小

前言

从古典目标识别到R-CNN到SPP-Net到Fast R-CNN系列Structure都没有实现End to End 的训练，问题出在SS(selective search)
因为SS从一开始提取proposals并没有放到整个Network中去学习，即提取proposals的过程不智能（没有根据Data_trian中的特点去提取proposals，而是根据人为理解求相似度提取proposals）
所以为更智能去实现End to End 去学习，最后提出了Faster R-CNN，本文将会对这一系列improve过程尽可能做阐述

提示：以下是本篇文章正文内容，下面案例可供参考

一、R-CNN Structure and Find problem to improve

1. R-CNN Structure

在这里插入图片描述

Output layer(Class and Reg)分别接1个Reg器和1个class器，对2000个proposal做并行Reg and class

中间层Warped Image regions的作用对后面的Class and Reg 有什么影响？

1.为什么要Warped相同的size？
Keep 相同的维度，为下游(reg and class)FC做准备
2.Warped 相同的size的坏处
(1)使得Regions of proposal的图像特征信息被大量丢失，will cause FC时Reg and class不准
(2) ConvNet调用次数太多
(3) ConvNet与output(Reg and class)部分是独立的，即训练参数是独立的
3. 古典目标识别好的地方
把SITF(人为经典算法提取特征)变为CNN提取特征

2. Find problem to improve

在这里插入图片描述

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、SPP-Net Structure and SPP layer

1. SPP-Net Structure

在这里插入图片描述

2. SPP layer

在这里插入图片描述

三、Fast R-CNN Structure and Improved based on SPP-Net

1. Fast R-CNN Structure

在这里插入图片描述

2. Improved based on SPP(R-CNN)

ROI pooling

在这里插入图片描述

四、从古典目标识别到Fast R-CNN总结

在这里插入图片描述
从古典目标识别到R-CNN到SPP-Net到Fast R-CNN系列Structure都没有实现End to End 的训练，问题出在SS(selective search)

五、Faster R-CNN Structure and RPN Structure

1. Faster R-CNN Structure

在这里插入图片描述

2. RPN Structure

在这里插入图片描述

1.对于每一个anchor在Fm上都会做一个3*3的Conv，Conv 后会接两个分支，一个接Class，一个接Reg，一个anchor管着9个anchor boxes，9个anchor boxes不管在原图框的shape是什么样子，进入分类器提的特征是一样的
2.shape不一样，为什么提取的特征一样？
9个anchor boxes是在原图中去抠图，但是并不会在原图中扣完图之后通过VGG16、ResNet or DenseNet再来提取特征
3.intermediate layer是以each anchor为中心做完3 * 3conv之后的结果，作为特征往下传递
4.anchor boxes在原图抠的9个shape是不一样的，但是在Fm中的以each anchor为中心做完3 * 3conv后的特征是一样的，对于分类器有什么影响？
做完conv之后的中间结果接9个二分类器（正例，负例），对应着9种anchor boxes在原图抠的18种shape。即拿着3 * 3conv之后的结果(特征内容)去猜（训练）conv之后的特征是方块型的object还是瘦高型的object或是扁平的object…
5.Fm中3 * 3的conv对应的感受野（映射于原图所对应的区域）对于9个anchor boxes的在原图抠的shape区域来说是一样的
6.reg layer做完校正之后，原图中crop的9种anchor boxes就是y_hat，再与人为打好label的GT(Ground Truth)求IOU

在这里插入图片描述

六、详解Faster R-CNN论文RPN中的3乘3对应原图感受野大小 and K-Means可以改进anchors的大小

1. 详解Faster R-CNN论文RPN中的3乘3对应原图感受野大小

在这里插入图片描述

2. K-Means可以改进anchors的大小

RPN-Network
总结：1.VGG16 and ZF中的bottom对应的Receptive Filed大小
2.一个RF设计的anchor boxes，对不同的anchor boxes做class and Reg是有缺陷的（anchor boxes的size开始被写死了），可以通过K-means改进（based on datasets对anchor预先进行计算）