Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts论文阅读

简介

之前的博客总结有提到过语义分割联合边缘检测进行多任务学习提升性能的思路,Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts这篇文章也是按照上述思路出发的,但是考虑的任务是语义边缘检测,而不是传统的二值边缘检测,关于语义边缘检测任务可以参考这篇讲解CASENet的博客。语义分割最常用的损失是交叉熵损失,对边界像素这种处于难分状态下的分类效果是不能令人满意的,一方面是因为深度卷积网络的下采样操作丢失了细节信息,另一方面是交叉熵损失并不会使网络去注意边界像素的分类。因此有必要进行语义边缘检测,而且语义分割任务与语义边缘检测任务耦合性很高,可以相互促进。该论文利用语义分割任务的结果,结合提出的空间梯度融合去抑制语义边缘检测任务中的非语义边界,并引进边界一致性约束的损失函数去提升边界像素准确率。

RPCNet

在这里插入图片描述这个网络结构看起来并不优雅,其Backbone是预训练的带空洞卷积的残差网络,然后各个特征图尺寸上交替通过PCM(Pyramid Context Module),耦合语义分割和语义边缘检测任务的语义信息并进行交互,经过S个步骤refine的特征图用于语义分割和语义边缘检测。另外,分别用于语义边界检测和语义分割两个任务的特征图就相差了一个PCM,会不会影响网络的学习嘞?(估计关键还是后面的通过空间梯度融合来筛选语义边界)

  1. PCM
    在这里插入图片描述这个PCM模块也是比较复杂的,高层次或同层次的特征图首先通过不同核大小的全局池化得到多个patches,然后每个patches的特征图被送入相应的卷积层去获取全局上下文信息,然后通过一些像素级加法和乘法输出refine后的特征图。用公式表达PCM如下:
    在这里插入图片描述在这里,取s=3,t=1进行示例(t=0,1,2分别对应原图大小的1/16,1/8,1/4尺寸的特征图)。
  2. 空间梯度 ∇ M \nabla{M} M融合
    这里所谓的空间梯度融合实际上是语义分割预测的Mask与其均值池化(模糊)的差值的绝对值(Mask减去其均值滤波图得到高频的边界分量),这样可以得到语义分割导出的语义边界,有助于语义边界检测任务抑制非语义边界。 ∇ M ( x , y ) = ∣ M ( x , y ) − p o o l k ( M ( x , y ) ) ∣ \nabla M(x,y)=|M(x,y)-pool_k(M(x,y))| M(x,y)=M(x,y)poolk(M(x,y))k是均值池化的核大小,这里取k=3
  3. Sliced concatenation
    语义边界检测是多分类任务,因此输出语义边界概率图 B = { B 1 , B 2 , . . . , B K } B=\{B_1,B_2,...,B_K\} B={B1,B2,...,BK},而空间梯度融合输出推理的边界图 ∇ M = { ∇ M 1 , ∇ M 2 , . . . , ∇ M K } \nabla M=\{\nabla M_1,\nabla M_2,...,\nabla M_K\} M={M1,M2,...,MK},Sliced concatenation操作结果为 2 k 2k 2k通道的图: [ B 1 , ∇ M 1 , B 2 , ∇ M 2 , . . . , B K , ∇ M K ] [B_1,\nabla M_1,B_2,\nabla M_2,...,B_K,\nabla M_K] [B1,M1,B2,M2,...,BK,MK]
  4. Loss
    损失包含三项,一个是语义分割的交叉熵损失 L M L_M LM,一个是从语义mask导出的语义边界 ∇ M \nabla M M与语义边界GT之间的 L 1 L_1 L1损失: L D = ∑ i ∣ ∇ M i − B i g t ∣ L_D=\sum_i{|\nabla M_i-B_i^{gt}|} LD=iMiBigt最后一项是语义边界损失: L E = − ∑ k K ∑ i ( β y i k l o g Y i k + ( 1 − β ) ( 1 − y i k ) l o g ( 1 − Y i k ) ) L_E=-\sum_k^K{\sum_i(\beta y_i^klogY_i^k+(1-\beta)(1-y_i^k)log(1-Y_i^k))} LE=kKi(βyiklogYik+(1β)(1yik)log(1Yik)) β \beta β是边界 g t gt gt中非边界像素的百分比, y i k y_i^k yik是类别 k k k中像素 i i i的的二值标签。最后损失是三者的加权和: L t o t a l = L M + λ 1 L D + λ 2 L E L_{total}=L_M+\lambda_1L_D+\lambda_2L_E Ltotal=LM+λ1LD+λ2LE其中 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2分别设置为1和1000.

可视化结果

在这里插入图片描述

 可以看出,空间梯度融合确实达到了抑制非语义边界的效果。
在这里插入图片描述  联合语义分割和语义边界检测的多任务学习框架使得两个任务都取得了更优的结果。

总结

不同于之前的一些工作考虑联合边界检测辅助语义分割任务,而是从语义边界检测任务着手,与语义分割更加契合,尽管网络结构不是十分优雅,但是出发的思路值得肯定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值