深度学习:滑动窗口实现物体检测与其卷积优化

滑动窗口

用于物体检测,不仅要识别出图像中的物体,还要用一个矩形框标示出物体的位置。除了直接训练一个网络输出矩形的坐标,另一种方法就是滑动窗口了。我们设计一个固定比例的方框,称之为“窗口”,之后在整张图片上移动该窗口扫描图片,将框住的内容传进网络中判断其中是否有我们想探测的物体。在完成一次扫描后,还可以等比例放缩窗口,进行多次扫描。
在这里插入图片描述
但滑动窗口算法的问题就在于,该算法会把大量的待检测图像传入神经网络中,导致检测一张图片的计算开销非常巨大。如果调整步距,使得每次窗口滑动的距离变大,又容易卡掉需要检测的物体,让结果不准确。

卷积实现全连通层

介绍CNN的时候我们也提到了全连通层,其实就是普通的神经网络层。而实际上,全连通层的运算也可以用卷积形式实现,只需要用 n c ′ n_c' nc个与输入矩阵等大的过滤器,就可以输出 1 × 1 × n c ′ 1\times 1\times n_c' 1×1×nc的矩阵,与全连通层的运算和参数规模都是一样的:
在这里插入图片描述

卷积优化滑动窗口

如何将上面的卷积形式应用到滑动窗口?仔细观察可以发现,矩阵卷积的运算方式和滑动窗口特别相似,都是用一个方框在大矩阵上移动,然后计算被框住的部分。所以滑动窗口的计算就可以看作是一个卷积过程!

在下面这个例子中,假设我们要检验大小为 14 × 14 14\times 14 14×14的区域是否有目标物体。检测这样一张子图的网络如下图所示:
在这里插入图片描述
而若原图片是 16 × 16 16\times 16 16×16的,滑动的步距为 2 2 2,我们需要检测的子图就有4张。我们可以发现,将同样的卷积和池化运算作用到该矩阵上,我们最后会得到一个 4 × 4 4\times 4 4×4的矩阵,恰好对应了 14 × 14 14\times 14 14×14的窗口滑动得到的4张子图:
在这里插入图片描述
而与单独的四次运算不同的是,卷积将四个子图的重复部分利用起来,节省了大量运算。对于更大的图片,也是同理,我们最后能得到的输出矩阵每个元素都对应一个窗口框出来的子图:
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ShadyPi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值