Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts论文阅读

最新推荐文章于 2022-03-26 08:46:36 发布

小天要奔跑

最新推荐文章于 2022-03-26 08:46:36 发布

阅读量1.3k

点赞数 2

分类专栏：语义分割文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_38861679/article/details/109578017

版权

语义分割专栏收录该内容

8 篇文章 6 订阅

订阅专栏

简介

之前的博客总结有提到过语义分割联合边缘检测进行多任务学习提升性能的思路，Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts这篇文章也是按照上述思路出发的，但是考虑的任务是语义边缘检测，而不是传统的二值边缘检测，关于语义边缘检测任务可以参考这篇讲解CASENet的博客。语义分割最常用的损失是交叉熵损失，对边界像素这种处于难分状态下的分类效果是不能令人满意的，一方面是因为深度卷积网络的下采样操作丢失了细节信息，另一方面是交叉熵损失并不会使网络去注意边界像素的分类。因此有必要进行语义边缘检测，而且语义分割任务与语义边缘检测任务耦合性很高，可以相互促进。该论文利用语义分割任务的结果，结合提出的空间梯度融合去抑制语义边缘检测任务中的非语义边界，并引进边界一致性约束的损失函数去提升边界像素准确率。

RPCNet

在这里插入图片描述这个网络结构看起来并不优雅，其Backbone是预训练的带空洞卷积的残差网络，然后各个特征图尺寸上交替通过PCM(Pyramid Context Module)，耦合语义分割和语义边缘检测任务的语义信息并进行交互，经过S个步骤refine的特征图用于语义分割和语义边缘检测。另外，分别用于语义边界检测和语义分割两个任务的特征图就相差了一个PCM，会不会影响网络的学习嘞？(估计关键还是后面的通过空间梯度融合来筛选语义边界)

PCM
这个PCM模块也是比较复杂的，高层次或同层次的特征图首先通过不同核大小的全局池化得到多个patches，然后每个patches的特征图被送入相应的卷积层去获取全局上下文信息，然后通过一些像素级加法和乘法输出refine后的特征图。用公式表达PCM如下：
在这里，取s=3，t=1进行示例(t=0,1,2分别对应原图大小的1/16，1/8，1/4尺寸的特征图)。
空间梯度 $\nabla{M}$ 融合
这里所谓的空间梯度融合实际上是语义分割预测的Mask与其均值池化(模糊)的差值的绝对值(Mask减去其均值滤波图得到高频的边界分量)，这样可以得到语义分割导出的语义边界，有助于语义边界检测任务抑制非语义边界。 $\nabla M(x,y)=|M(x,y)-pool_k(M(x,y))|$ k是均值池化的核大小，这里取k=3
Sliced concatenation
语义边界检测是多分类任务，因此输出语义边界概率图 $B=\{B_1,B_2,...,B_K\}$ ，而空间梯度融合输出推理的边界图 $\nabla M=\{\nabla M_1,\nabla M_2,...,\nabla M_K\}$ ，Sliced concatenation操作结果为 $2 k$ 通道的图： $[B_1,\nabla M_1,B_2,\nabla M_2,...,B_K,\nabla M_K]$
Loss
损失包含三项，一个是语义分割的交叉熵损失 $L_M$ ，一个是从语义mask导出的语义边界 $\nabla M$ 与语义边界GT之间的 $L_1$ 损失: $L_D=\sum_i{|\nabla M_i-B_i^{gt}|}$ 最后一项是语义边界损失： $L_E=-\sum_k^K{\sum_i(\beta y_i^klogY_i^k+(1-\beta)(1-y_i^k)log(1-Y_i^k))}$ $\beta$ 是边界 $g t$ 中非边界像素的百分比， $y_i^k$ 是类别 $k$ 中像素 $i$ 的的二值标签。最后损失是三者的加权和： $L_{total}=L_M+\lambda_1L_D+\lambda_2L_E$ 其中 $\lambda_1$ 和 $\lambda_2$ 分别设置为1和1000.