目标检测中的图像缩放

最新推荐文章于 2023-12-18 14:32:04 发布

那年聪聪

最新推荐文章于 2023-12-18 14:32:04 发布

阅读量2.5k

点赞数

分类专栏：深度学习与神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duan19920101/article/details/104169927

版权

深度学习与神经网络专栏收录该内容

39 篇文章 12 订阅

订阅专栏

R-CNN中对于每个输入的候选框都需要缩放到固定的大小。下面我们讲解要怎么进行缩放处理，为了简单起见我们假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。因为我们经过selective search 得到的是矩形框，paper试验了两种不同的处理方法：（1）各向异性缩放；（2）各向同性缩放。

先说结论：经过最后的试验，作者发现采用各向异性缩放、padding=16（第2行，各方向外扩16个像素）的精度最高。

(1)各向异性缩放（不管三七二十一，直接缩放到目标尺寸）

这种方法很简单，就是不管图片的长宽比例，管它是否扭曲，进行缩放就是了，全部缩放到CNN输入的大小227*227，如下图(D)所示；

(2)各向同性缩放

因为图片扭曲后，估计会对后续CNN的训练精度有影响，于是作者也测试了“各向同性缩放”方案。有两种办法

A、先扩充后裁剪：直接在原始图片中，把bounding box的边界进行扩展延伸成正方形，然后再进行裁剪；如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充；如上图(B)所示;

B、先裁剪后扩充：先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如上图(C)所示;

对于上面的异性、同性缩放，文献还有个padding处理，上面的示意图中第1、3行就是结合了padding=0,第2、4行结果图采用padding=16的结果。

（备注：候选框的搜索策略作者也考虑过使用一个滑动窗口的方法，然而由于更深的网络，更大的输入图片和滑动步长，使得使用滑动窗口来定位的方法充满了挑战。）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
目标检测中的图像缩放

目标检测中使用“直接缩放到目标尺寸”的缩放方式精度最高。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。