深度学习：滑动窗口实现物体检测与其卷积优化

最新推荐文章于 2024-03-28 13:42:02 发布

ShadyPi

最新推荐文章于 2024-03-28 13:42:02 发布

阅读量2.3k

点赞数 1

分类专栏：深度学习与神经网络文章标签：深度学习 cnn 人工智能

本文链接：https://blog.csdn.net/ShadyPi/article/details/122895860

版权

深度学习与神经网络专栏收录该内容

19 篇文章 1 订阅

订阅专栏

文章目录

滑动窗口
卷积实现全连通层
卷积优化滑动窗口

滑动窗口

用于物体检测，不仅要识别出图像中的物体，还要用一个矩形框标示出物体的位置。除了直接训练一个网络输出矩形的坐标，另一种方法就是滑动窗口了。我们设计一个固定比例的方框，称之为“窗口”，之后在整张图片上移动该窗口扫描图片，将框住的内容传进网络中判断其中是否有我们想探测的物体。在完成一次扫描后，还可以等比例放缩窗口，进行多次扫描。
在这里插入图片描述
但滑动窗口算法的问题就在于，该算法会把大量的待检测图像传入神经网络中，导致检测一张图片的计算开销非常巨大。如果调整步距，使得每次窗口滑动的距离变大，又容易卡掉需要检测的物体，让结果不准确。

卷积实现全连通层

在介绍CNN的时候我们也提到了全连通层，其实就是普通的神经网络层。而实际上，全连通层的运算也可以用卷积形式实现，只需要用 $n_c'$ 个与输入矩阵等大的过滤器，就可以输出 $1\times 1\times n_c'$ 的矩阵，与全连通层的运算和参数规模都是一样的：
在这里插入图片描述

卷积优化滑动窗口

如何将上面的卷积形式应用到滑动窗口？仔细观察可以发现，矩阵卷积的运算方式和滑动窗口特别相似，都是用一个方框在大矩阵上移动，然后计算被框住的部分。所以滑动窗口的计算就可以看作是一个卷积过程！

在下面这个例子中，假设我们要检验大小为 $14\times 14$ 的区域是否有目标物体。检测这样一张子图的网络如下图所示：
在这里插入图片描述
而若原图片是 $16\times 16$ 的，滑动的步距为 $2$ ，我们需要检测的子图就有4张。我们可以发现，将同样的卷积和池化运算作用到该矩阵上，我们最后会得到一个 $4\times 4$ 的矩阵，恰好对应了 $14\times 14$ 的窗口滑动得到的4张子图：
在这里插入图片描述
而与单独的四次运算不同的是，卷积将四个子图的重复部分利用起来，节省了大量运算。对于更大的图片，也是同理，我们最后能得到的输出矩阵每个元素都对应一个窗口框出来的子图：