深度篇—— CNN 卷积神经网络(三) 关于 ROI pooling 和 ROI Align 与插值

最新推荐文章于 2024-01-30 23:32:26 发布

万道一

最新推荐文章于 2024-01-30 23:32:26 发布

阅读量2.7k

点赞数 3

分类专栏： AI章文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38299170/article/details/104203587

版权

本文详细介绍了ROI Pooling和ROI Align在深度学习中的作用，特别是目标检测任务中。ROI Pooling通过最大池化实现不同大小ROI到固定尺寸特征图的转换，而ROI Align解决了量化误差导致的定位不准确问题，采用双线性插值来提高精度。此外，还简要提及了线性插值和双线性插值的概念。

摘要由CSDN通过智能技术生成

返回主目录

返回 CNN 卷积神经网络目录

上一章：深度篇—— CNN 卷积神经网络(二) 细说池化(pooling) 与反池化(unpooling)

下一章：深度篇—— CNN 卷积神经网络(四) 使用 tf cnn 进行 mnist 手写数字代码演示项目

本小节，细说关于 ROI 与插值

三. 关于 ROI

1. ROI pooling (Region Of Interesting pooling, ROI pooling) 感兴趣区域池化

(1). 目标检测 typical architecture (典型架构) 通常可以分为两个阶段：

①. region proposal (区域提案)

给定一张输入 image 找出 objects 可能存在的所有位置。这一阶段的输出应该是一系列 object 可能的 bounding boxes。这些通常称为 region proposal 或 region of interest (ROI)

②. final classification (最终分类)

确定上一阶段的每个 region proposal 是否属于目标一类或者背景。

(2). 这 architecture 存在的一些问题：

①. 产生大量的 region proposal 会导致性能问题，很难达到实时目标检测。

②. 在处理速度方面是 suboptimal (次优)

③. 无法做到 end-to-end training。

(3). 于是提出了 ROI pooling。ROI pooling 层实现 training 和 testing 的显著加速，并提高检测 accuracy。该层有两个输入：

①. 从具体多个卷积核池化的深度网络中获得的固定大小的 feature map

②. 一个表示所有 ROI 的 $\large N \times 5$ 的矩阵，其中 $\large N$ 表示 ROI 的数目。 $\large 5$ 则表示第一列为图像的 index，其余四列分别为左上角和右下角的坐标。

(4). ROI pooling 的具体操作

①. 根据输入 image，将 ROI 映射到 feature map 对应位置

②. 将映射后的感兴趣区域划分为不同大小(也可以有相同大小) 的 sections (部分)， sections 数量与输出的维度相同。

③. 对每个 sections 进行 max pooling 操作。

这样就可以从不同大小的方框得到固定大小相应的 feature map。值得一提的是，输出的 feature map 的大小不取决于 ROI 和卷积 feature map 的大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

最低0.47元/天解锁文章

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。