目标检测-Two Stage-Mask RCNN

学海一叶

已于 2023-12-28 15:03:14 修改

阅读量1.4k

点赞数 26

分类专栏：目标检测文章标签：目标检测目标跟踪人工智能计算机视觉算法

于 2023-12-28 14:54:09 首次发布

本文链接：https://blog.csdn.net/long11350/article/details/135260424

版权

目标检测专栏收录该内容

20 篇文章 1 订阅

订阅专栏

文章目录

前言
一、Mask RCNN的网络结构和流程
二、Mask RCNN的创新点
总结

前言

前文目标检测-Two Stage-Faster RCNN提到了Faster RCNN主要缺点是：

ROI Pooling有两次量化操作，会引入误差影响精度

Mask RCNN针对这一缺点做了改进，此外Mask RCNN还添加了全卷积网络的分支，拓展了网络的应用范围，使其可用于多种视觉任务：包括目标分类、目标检测、语义分割、实例分割、人体姿态识别等

提示：以下是本篇文章正文内容，下面内容可供参考

一、Mask RCNN的网络结构和流程

利用骨干网架构（Backbone Architecture）提取多尺度特征，获得多尺度共享卷积特征图（Feature Maps）

Backbone Architecture由Backbone（ResNet50）和特征金字塔网络FPN（Feature Pyramid Network）组成

利用RPN（Region Proposal Network）网络生成候选框，进行分类和第一次边框修正

ps：输入的是多个尺度特征图，每个特征图对应一个RPN，因为输入是多尺度特征，就不需要再对每层都使用3种不同尺度的anchor了，所以只为每层设定一种尺寸的anchor
在P2-P6的五个特征图上分别对应设置5个不同的anchor size(32, 64, 128, 256, 512)并设置3种长宽比(0.5, 1.0, 2.0)，也就是每个特征图的每个像素点生成3个anchor(x, y, w, h)
例如，输入图像为512 × 512，那么五个特征图的尺寸分别为128, 64, 32, 16, 8，那么生成的anchors的数量为(128 × 128 + 64 × 64 + 32 × 32 + 16 × 16 + 8 × 8) × 3 = 21824 × 3 = 65472