基于改进Mask R-CNN的模糊图像实例分割的研究

摘 要:Mask R-CNN是现阶段实例分割相对成熟的方法,针对Mask R-CNN算法当中还存在的分割边界精度以及对于模糊图片鲁棒性较差等问题,该文提出一种基于改进的Mask R-CNN实例分割方法。该方法首先提出在Mask分支上使用卷积化条件随机场(ConvCRF)来优化Mask分支对于候选区域进一步分割,并使用FCN-ConvCRF分支来代替原有分支;之后提出新锚点大小和IOU标准,使得RPN候选框能够涵盖所有实例区域;最后使用一种添加部分经过转换网络转换的数据进行训练的方法。总的mAP值与原算法相比提升了3%,并且分割边界精确度和鲁棒性都有一定提高。

2 FCN-ConvCRF分支
2.1 Mask分支
Mask R-CNN当中的Mask分支是作用于RoIAlign上的小FCN,由4个3×3卷积层,1个2×2反卷积层和1个全连接层组成,其中进行4次批归一化,该网络的特征提取部分和RPN层共享特征图。Mask分支和Mask R-CNN的其他两个分支并行处理,为每一个检测类别独立预测出掩码从而消除了跨类别竞争,结构简单而且行之有效。尽管Mask R-CNN和其他算法相比都体现出一定优越性,但在具体实验当中Mask R-CNN依然有改进的余地,在实例边界处出现了不准确预测。为了优化这一点,本文提出了结合卷积化条件随机场的新Mask分支来代替原有分支进而细化Mask R-CNN输出结果。
2.2 ConvCRF
传统条件随机场(Condition Random Field, CRF)[18]学习速度非常缓慢,本文使用卷积化条件随机场策略[19]而不采用全连接条件随机场。卷积化条件随机场把条件独立性假设添加到传统全连接条件随机场当中,进而把大部分推断表示为卷积化操作,从而可以在GPU当中高效实现。同时,卷积化条件随机场的能量函数依然依靠一元势函数和二元势函数共同确定,其中二元势函数可以使具有相近特征的像素更容易分配到一致结果,进而弥补卷积神经网络因每个像素独立输出结果而导致的不一致性,卷积化条件随机场优化每一张图片均可以在10 ms之内完成。nIki IjXj(I,X)X全连接条件随机场[20]直是条件随机场优化当中最常见的模型。现有一张由 个像素组成的图片,对于图像分割任务,每一个像素对应着 个类别,对于图片里每一个像素 , 是像素的颜色向量,是对于每一个像素的标签。现有一个条件随机场,服从高斯分布,其对应的分布率和关于的能量函数如式(1)所示
在这里插入图片描述

式中 是定义在 上的一个图, 表示子图, 和 为不同维度下子图对应变量,该图当中每一个子图 都伴随着一个势函数 ,在全连接条件随机场模型当中, 是 的完全图而 则是所有一元和二元子图的集合,相关吉布斯能量函数可简化成一元和二元部分相加的形式。
在这里插入图片描述

对于该能量函数当中的一元势函数是基于该像素点的特征(位置颜色向量等)独立计算的,在本文算法中该部分由神经网络输出。对于二元势函数有式(4)的形式
在这里插入图片描述

式中 为高斯卷积核, 和 为对应像素在某特征空间中的特征向量, 为线性伴随相量, 为标签兼容性函数, 为相关图形形状的正定矩阵。
卷积化条件随机场就是用条件独立性假设来补充全连接条件随机场,当两个像素的曼哈顿距离大于 时,就认为它们之间是条件独立关系,而且不使用Permutohedral lattice近似,把信息传递步骤重置为带截断的高斯卷积以便在GPU上高效学习和计算,该过程与CNN卷积非常相似。考虑一个大小为 的输入本文为它定义一个核矩阵表达式式(6)
在这里插入图片描述

式中 为可学习参数,对于一组核矩阵 到 ,定义合并的矩阵 定义所有 个核的组合信息传递结果 为
在这里插入图片描述

式中 为曼哈顿距离, 表示批次维度, 为核矩阵,总体计算过程相当于一个 维度上的卷积。
本文用分离式训练方法训练并使用CRF,相比与总体的端到端方法,分离式训练更具灵活性,它可以用于任何细化方法之中。本文将ConvCRF用在Mask R-CNN的Mask分支的类似FCN结构当中,以FCN-ConvCRF结构来代替原先Mask分支当中的FCN结构,再整合类别判断确定最终输出结果,然ConvCRF和Mask R-CNN在训练上没有实际交互,但增强了网络可解释性,也使网络训练更容易收敛,解决了梯度消失、梯度爆炸等难题。在正式设计实验之前,本文提取了coco数据图片集在Mask-CNN上生成的掩码并对其用ConvCRF进行优化测试以观察ConvCRF的推理优化能力。

3 改进的RPN层
Mask R-CNN是以目标检测系统为主体来完成实例分割的工程,和Faster R-CNN边框选取机制一样,都是在RPN层和Head分支进行两次边框回归从而得出最终边框选取结果,最后的边框回归精确度要优于类似SSD[21], YOLO这样使用1次回归的算法。但Mask R-CNN是并行处理结构而不是级联结构,传到RoIAlign的数据是RPN层第1次粗略的回归结果,相对于分割任务来讲使用粗略的回归结果容易造成信息丢失。
图1为coco数据集图片在Mask R-CNN上运行过程可视化图像,具体内容为RPN层产生的两个离目标较近的候选框。
从图1可以看出,对于分割任务而言,偏大的候选框可以更全面地包含被分割对象,从而更适合分割任务。而Mask R-CNN的训练和计算过程当中,候选框的优劣是以候选框和边界框之间的IOU来判断,偏大的候选框在训练过程中容易因为
在这里插入图片描述

IOU值偏小而被舍弃。为了优化Mask R-CNN的RPN层因为候选框过小而导致后续分割出现虚假边缘,本文做了如下改进。
首先,本文重新设定了Mask R-CNN的锚点所对应的候选框的相对长宽,把锚点候选框相对大小增加了10%左右,使得新候选框能够多保留进一部分背景区域进行分类,从而减少丢失信息的可能性。此外,本文对Mask R-CNN数据发生器的IOU进行了改动,传统的IOU标准如式(8)所示
在这里插入图片描述

式中 为候选框, 为真实值,对于区域也就是没有囊括进去的区域惩罚力度和的惩罚力度一样。对于分割任务来讲,一般更希望候选框能够涵盖所有待分割区域而不是贴紧目标,所以本文增加一个惩罚因子 来额外惩罚目标区域没有涵盖到的情况,当 时,新IOU(IOUnew)和传统IOU一样,IOUnew计算公式如式(9)
在这里插入图片描述

改进后的Mask R-CNN使用新IOUnew产生RPN层需要的训练数据,使得囊括能力更强的候选框更有可能保留下来,从而在训练过程当中参数调整向着更多内容涵盖到候选框以内的方向发展, 参数既保证了IOU的合理性,又给对于没有涵盖到的区域增加惩罚提供了一定弹性空间。改进的Mask R-CNN整体结构如图2所示。在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值