目标检测

最新推荐文章于 2020-11-20 19:38:58 发布

任立成

最新推荐文章于 2020-11-20 19:38:58 发布

阅读量148

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41875080/article/details/89158847

版权

深度学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

摘要由CSDN通过智能技术生成

Selective Search原理简述，以及滑动窗口的介绍(不属于Selective Search)
https://blog.csdn.net/Small_Munich/article/details/79595257
选择搜索算法的主要观点：图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此，选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes候选边界框。首先，对输入图像进行分割算法产生许多小的子区域。其次，根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并，不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形)，这些子区域外切矩形就是通常所说的候选框。

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition) 空间金字塔池化

和图像裁剪拉伸是不同的，在神经网络中，位置也是不同的。
https://blog.csdn.net/yzf0011/article/details/75212513
https://www.jianshu.com/p/90f9d41c6436
https://blog.csdn.net/v1_vivian/article/details/73275259
他已经广泛应用于目标检测多尺度工作中
不同的位置：
在这里插入图片描述
SPP原理：使用多个窗口(pooling窗口，上图中蓝色，青绿，银灰的窗口，然后对feature maps 进行pooling，将分别得到的结果进行合并就会得到固定长度的输出), 这就是得到固定输出的秘密原因。
就是不同大小的pooling层对特征图池化，然后将结果合并。通过设计，可以得到不同尺度特征图相同的flatten大小的效果

在这里插入图片描述
黑色图片代表卷积之后的特征图，接着我们以不同大小的块来提取特征，分别是44，22，1*1，将这三张网格放到下面这张特征图上，就可以得到16+4+1=21种不同的块(Spatial bins)，我们从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。这种以不同的大小格子的组合方式来池化的过程就是空间金字塔池化（SPP）。比如，要进行空间金字塔最大池化，其实就是从这21个图片块中，分别计算每个块的最大值，从而得到一个输出单元，最终得到一个21维特征的输出。99饿

RoI池化层去掉了SPP的多尺度池化，直接用MxN的网格，将每个候选区域均匀分成M×N块，对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量，送入下一层。

Fast RCNN很好的文章
https://www.jianshu.com/p/fbbb21e1e390
特征提取方式
Fast R-CNN在特征提取上可以说很大程度借鉴了SPPnet，首先将图片用选择搜索算法（selective search）得到2000个候选区域（region proposals）的坐标信息。另一方面，直接将图片归一化到CNN需要的格式，整张图片送入CNN（本文选择的网络是VGG），将第五层的普通池化层替换为RoI池化层，图片然后经过5层卷积操作后，得到一张特征图（feature maps），开始得到的坐标信息通过一定的映射关系转换为对应特征图的坐标，截取对应的候选区域，经过RoI层后提取到固定长度的特征向量，送入全连接层。

边框回归，暂时没看明白
https://blog.csdn.net/zijin0802034/article/details/77685438/

Faster R_CNN
https://zhuanlan.zhihu.com/p/31426458
在这里插入图片描述
注：关于上面的anchors size，其实是根据检测图像设置的。在python demo中，会把任意大小的输入图像reshape成800x600（即图2中的M=800，N=600）。再回头来看anchors的大小，anchors中长宽1:2中最大为352x704，长宽2:1中最大736x384，基本是cover了800x600的各个尺度和形状。
那么这9个anchors是做什么的呢？借用Faster RCNN论文中的原图，如图7，遍历Conv layers计算获得的feature maps，为每一个点都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确，不用担心，后面还有2次bounding box regression可以修正检测框位置。
在这里插入图片描述
https://blog.csdn.net/qq_36269513/article/details/80421990
https://blog.csdn.net/lanran2/article/details/54376126
https://www.zhihu.com/compatibility/index.html 很好的个人总结
其他都很啰嗦，这个真的好

任立成

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测

Selective Search原理简述，以及滑动窗口的介绍(不属于Selective Search)https://blog.csdn.net/Small_Munich/article/details/79595257选择搜索算法的主要观点：图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此，选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes...
复制链接

扫一扫