Mask R-CNN文章总结

最新推荐文章于 2023-03-11 17:29:06 发布

任立成

最新推荐文章于 2023-03-11 17:29:06 发布

阅读量355

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41875080/article/details/90031790

版权

深度学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

最好的文章，对网络细节介绍到很清楚！值得反复阅读

下面通过一个例子来讲解ROI Align操作。如下图所示，虚线部分表示feature map，实线表示ROI，这里将ROI切分成2x2的单元格。如果采样点数是4，那我们首先将每个单元格子均分成四个小方格（如红色线所示），每个小方格中心就是采样点。这些采样点的坐标通常是浮点数，所以需要对采样点像素进行双线性插值（如四个箭头所示），就可以得到该像素点的值了。然后对每个单元格内的四个采样点进行maxpooling，就可以得到最终的ROIAlign的结果。

在这里插入图片描述

宏观的介绍网络框架

谷歌排行第一的，高视角分析

ROIAlign如何进行双线性插值：
如图所示，为了得到为了得到固定大小（7X7）的feature map，ROIAlign技术并没有使用量化操作，即我们不想引入量化误差，比如665 / 32 = 20.78，我们就用20.78，不用什么20来替代它，比如20.78 / 7 = 2.97，我们就用2.97，而不用2来代替它。这就是ROIAlign的初衷。那么我们如何处理这些浮点数呢，我们的解决思路是使用“双线性插值”算法。双线性插值是一种比较好的图像缩放算法，它充分的利用了原图中虚拟点（比如20.56这个浮点数，像素位置都是整数值，没有浮点值）四周的四个真实存在的像素值来共同决定目标图中的一个像素值，即可以将20.56这个虚拟的位置点对应的像素值估计出来。厉害哈。如图11所示，蓝色的虚线框表示卷积后获得的feature map，黑色实线框表示ROI feature，最后需要输出的大小是2x2，那么我们就利用双线性插值来估计这些蓝点（虚拟坐标点，又称双线性插值的网格点）处所对应的像素值，最后得到相应的输出。这些蓝点是2x2Cell中的随机采样的普通点，作者指出，这些采样点的个数和位置不会对性能产生很大的影响，你也可以用其它的方法获得。然后在每一个橘红色的区域里面进行max pooling或者average pooling操作，获得最终2x2的输出结果。我们的整个过程中没有用到量化操作，没有引入误差，即原图中的像素和feature map中的像素是完全对齐的，没有偏差，这不仅会提高检测的精度，同时也会有利于实例分割。这么细心，做科研就应该关注细节，细节决定成败。
双线性插值
什么是插值，P = f (x,y) ， P就是这一点的像素值

分类：这张图像中有一个气球。

语义分割：这些全是气球像素。

目标检测：这张图像中的这些位置上有 7 个气球。

实例分割：这些位置上有 7 个气球，并且这些像素分别属于每个气球

完整译文

在这里插入图片描述

任立成

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Mask R-CNN文章总结

最好的文章，对网络细节介绍到很清楚！值得反复阅读宏观的介绍网络框架谷歌排行第一的，高视角分析ROIAlign如何进行双线性插值：如图所示，为了得到为了得到固定大小（7X7）的feature map，ROIAlign技术并没有使用量化操作，即我们不想引入量化误差，比如665 / 32 = 20.78，我们就用20.78，不用什么20来替代它，比如20.78 / 7 =...
复制链接

扫一扫