深度层次语义分割

Deep Hierarchical Semantic Segmentation

摘要

研究目的
人类能够在观察中识别结构化的关系,使能够将复杂的场景分解为更简单的部分,并将视觉世界抽象为多个层次。然而,这种人类知觉的层次推理能力在目前的语义分割文献中还没有得到充分的研究。在本文中,解决了分层语义分割(HSS),其目的是根据类层次结构对视觉观察进行结构化的、按像素级的描述
在这里插入图片描述

解决的问题

  1. 如何有效地使现有的不确定层次的分割网络适应HSS设置
  2. 如何利用层次结构信息来正则化HSS网络学习

为了解决1, HSSN直接将HSS转换为一个像素级的多标签分类任务,只对当前的分割模型带来最小的架构变化。
为了解决2, HSSN首先探索层次结构的固有属性作为训练目标,它强制分割预测服从层次结构。此外,通过层次诱导的边缘约束,HSSN重塑像素嵌入空间,从而生成结构良好的像素表示,并最终改善分割

本文方法

树结构层级:T = (V, E)
语义类:V
两个类之间的关系:(u, V)∈E
根节点:表示最一般的类

首先采用编码器fENC将图像I映射为密集特征张量,然后使用分割头fSEG得到分数图,在推理过程中,像素i与单个叶节点相关联:
在这里插入图片描述
(a)在类层次结构中,填满的圆表示正类,空圆表示负类。正例和负例的T -性质分别突出显示在红色和蓝色区域
(b)为类层次预测的原始分数向量s。违反正T约束和负T约束的预测分别突出显示在红色和蓝色矩形中
©更新后的分数向量p,满足T -约束。使用LTM,对错误预测的惩罚,即’ 0.6 ‘和’ 0.3 ',与对(b)应用LBCE相比增加了两倍

定义1(正T属性)。F或每个像素,如果一个类被标记为正,那么它在T中的所有祖先节点(即超类)都应该被标记为正
定义2(负T属性)。F或每个像素,如果一个类被标记为负,那么它在T中的所有子节点(即子类)都应该被标记为负
定义3(正T约束)。F或每个像素,如果v类被标记为正,并且u是v的一个祖先节点(即超类),它应该保持sv≤su
定义4(负T约束)。F或每个像素,如果v类被标记为负,u是v的子节点(即子类),则应符合1−sv≤1−su。

为保证满足3,4约束
Tree-Min Loss
在这里插入图片描述
在这里插入图片描述
Focal Tree-Min Loss
在这里插入图片描述
像素级层次表示学习
提出了一种基于边缘的像素层次表示学习策略

在HSSN中,结构化的边界约束由树距离ψ(·,·)定义,导致树-三态损失。
这种损失是在像素三组{i, i+, i−}上优化的,其中i, i+, i−分别是锚点、正像素样本和负像素样本。{i, i+, i−}是从整个训练批中抽取样本,使得ψ(vχ, v+χ) < ψ(vχ, v−χ),其中vχ, v+χ, v−χ分别是i, i+, i−的GT叶标签。因此,在我们的三重树损失中,与负像素相比,正样本在语义上更类似于锚点像素(即T更接近)。注意,这与经典的、层次不可知的三元组损失不同,在经典的三元组损失中,锚点和正样本来自同一类,而锚点和负样本来自不同的类,即:vχ = v+χ, vχ 6= v−χ。对于一个有效的训练三元组{i, i+, i−},我们的损失为:

在这里插入图片描述
分离边界m确定为:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值