DAY-11 Mask R-CNN
原文连接:https://bbs.cvmart.net/topics/1079
-
目标检测:对图像中每个对象定位
- 每个目标边界框的坐标(x, y)
- 每个边界框关联的类别标签
-
语义分割:将输入图像中的每个像素与一个类别标签(包括一个用于背景的类标签)关联起来
- 相同的目标,用相同的颜色标记
- 无法区分同一类的两个对象,
- 特别是同一个类别的两个目标是相互遮挡时,问题更加明显
-
实例分割;为图像中的每个对象计算像素级mask
- 相同的目标,用不同的颜色标记
- 不仅定位了每个独立的立方体,而且还预测了它们的边界
-
Mask R-CNN:实例分割算法
-
R-CNN 算法
step1:向网络输入图像
step2:提取区域proposals (即,可能包含对象的图像区域) 算法,如选择性搜索算法
step3:利用迁移学习进行特征提取,使用预先训练的CNN计算每个proposals的特征 (这实际上是一个ROI)
step4:使用支持向量机 (SVM) 对提取的特征进行分类
缺点:速度慢
-
Fast R-CNN算法
step1:输入一个图像和对应的实际的边界框
step2:提取图像的特征map
step3:应用ROI池化(有效地端到端进行训练),得到ROI特征向量
step4:使用两组全连接层来获得(1)类别标签预测(2)每个proposal的边框位置
Mask R-CNN的主要两个贡献:
- 用更精确的ROI align模块替换ROI Pooling模块
- 从ROI align模块中插入一个额外的分支
-
所选的300个ROIs中的每一个都要经过网络的三个并行分支:
1、类别标签预测
2、边界框预测
3、掩摸预测