各向同性，各向异性缩放

v1_vivian

于 2020-03-30 22:08:14 发布

阅读量5.7k

点赞数 12

分类专栏：论文阅读深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/v1_vivian/article/details/80245397

版权

深度学习同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

4 篇文章 2 订阅

订阅专栏

R-CNN的论文中提到了各向同性，各向异性缩放的概念，这里做一个详细解释：

当我们输入一张图片时，我们要搜索出所有可能是物体的区域，R-CNN采用的就是Selective Search方法，通过这个算法我们搜索出2000个候选框。然后从R-CNN的总流程图中可以看到，搜出的候选框是矩形的，而且是大小各不相同。然而CNN对输入图片的大小是有固定的，如果把搜索到的矩形选框不做处理，就扔进CNN中，肯定不行。因此对于每个输入的候选框都需要缩放到固定的大小。

下面我们讲解要怎么进行缩放处理，为了简单起见我们假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。因为我们经过selective search 得到的是矩形框，paper试验了两种不同的处理方法：

各向异性缩放：

这种方法很简单，就是不管图片的长宽比例，管它是否扭曲，进行缩放就是了，全部缩放到CNN输入的大小227*227，如下图(D)所示；

各项同性缩放：

因为图片扭曲后，估计会对后续CNN的训练精度有影响，于是作者也测试了“各向同性缩放”方案。有两种办法：

先扩充后裁剪

直接在原始图片中，把bounding box的边界进行扩展延伸成正方形，然后再进行裁剪；如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充；如下图(B)所示;

先裁剪后扩充

先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图©所示;

对于上面的异性、同性缩放，文献还有个padding处理，上面的示意图中第1、3行就是结合了padding=0, 第2、4行结果图采用padding=16的结果。经过最后的试验，作者发现采用各向异性缩放、padding=16的精度最高。（也就是最后一个图）
这里写图片描述

关注

12
点赞
踩
29

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

v1_vivian CSDN认证博客专家 CSDN认证企业博客

码龄10年

40: 原创

12万+: 周排名

108万+: 总排名

45万+: 访问

: 等级

3115: 积分

328: 粉丝

443: 获赞

180: 评论

1461: 收藏

私信

关注

热门文章

分类专栏

最新评论

SPP-Net论文详解
草洛白: 我也有该疑问很迷惑qaq 所以到底能不能直接输入都不一样尺寸的图片呢
SPP-Net论文详解
woe007: 因为RCNN是对每个候选框做一次cnn，而SPP-net对整图一次cnn，但还要找到对应候选框的区域，此时候选框的大小不一，所以用SPP产生固定大小输出。整图的cnn提取的是相对整图的特征，全局特征，后续对候选框区域再提取特征提取的就是候选框区域的，粒度更细。SPP里面还会进行多尺度的特征提取
SPP-Net论文详解
Joker_DDDu: 感觉你说的不太对既然我们都通过cnn提取出来了整张图片的特征，为何又要通过ss的区域进行特征提取，spp层的作用不是用来产生固定大小的输出的嘛
SPP-Net论文详解
keep learning1: 好文，点赞收藏了
SPP-Net论文详解
keep learning1: 为什么最开始是输出21维特征，多尺度训练时又输出14维特征？

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。