Mask RCNN 算法笔记

最新推荐文章于 2024-08-05 11:09:30 发布

AI之路

最新推荐文章于 2024-08-05 11:09:30 发布

阅读量4.7w

点赞数 21

分类专栏：深度学习计算机视觉视频分类/理解/分析

本文链接：https://blog.csdn.net/u014380165/article/details/81878644

版权

本文深入探讨Mask R-CNN算法，它结合目标检测和实例分割，优于现有单模型算法。介绍了ROIAlign与ROI Pool的区别，解释了实例分割与语义分割的差异，以及Mask R-CNN如何通过Faster R-CNN扩展实现。ROIAlign解决了ROI Pool在实例分割中的精度问题。

摘要由CSDN通过智能技术生成

论文：Mask RCNN
论文链接：https://arxiv.org/abs/1703.06870
官方代码链接：https://github.com/facebookresearch/Detectron
MXNet版本代码：https://github.com/TuSimple/mx-maskrcnn

Mask R-CNN是ICCV2017的best paper，在一个网络中同时做目标检测（object detection）和实例分割（instance segmentation）。该算法在单GPU上的运行速度差不多是5 fps，并且在COCO数据集的三个挑战赛：instance segmentation、bounding-box object detecton、person keypoint detection中的效果都要优于现有的单模型算法（包括COCO2016比赛的冠军算法）。这篇博客将重点介绍ROIAlign和ROI Pool的区别，希望能帮助他人理解二者的差异。

这里要说明一下实例分割和语义分割（semantic segmentation）的区别，实例分割需要将属于同一类的不同实例用不同的颜色标明，而语义将属于同一类的不同实例都用一种颜色标出即可。比如Figure1中最后得到的就是实例分割的结果，如果是语义分割，那么所有人用一种颜色标识即可。

Mask R-CNN可以通过Faster R-CNN扩展得到，如Figure1所示。我们知道在Faster R-CNN中，对于每个ROI（文中叫candidate object）主要有两个输出，一个输出是分类结果，也就是预测框的标签；另一个输出是回归结果，也就是预测框的坐标offset。而Mask R-CNN则是添加了第三个输出：object mask，也就说对每个ROI都输出一个mask，该支路是通过FCN网络（如Figure1中的两个卷积层）来实现的。以上这三个输出支路相互之间都是平行关系，相比其他先分割再分类的实例分割算法相比，这种平行设计不仅简单而且高效。

最低0.47元/天解锁文章

AI之路

关注

21
点赞
踩
159

收藏

觉得还不错? 一键收藏
1
评论
Mask RCNN 算法笔记

论文：Mask RCNN 论文链接：https://arxiv.org/abs/1703.06870 官方代码链接：https://github.com/facebookresearch/Detectron MXNet版本代码：https://github.com/TuSimple/mx-maskrcnnMask R-CNN是ICCV2017的best paper，在一个网络中同时做目标...
复制链接

扫一扫

专栏目录