Semantic Soft segmentation阅读笔记

在这里插入图片描述

1 INTRODUCTION

Semantic Soft segmentation 主要提出了一个精确表示图像不同区域间的软过渡(soft transitions)的方法,通过引入了语义软分割(Semantic Soft Segmentation, 简写为SSS)的概念来精确表示软过渡。SSS是一组对应于图像中有语义意义区域的的layers,其在复杂对象中表现出精确的软过渡 。

从谱分割(spectral segmentation) 角度来解决 soft segmentation 问题,将来自输入图像的纹理和颜色信息与通过使用训练用于场景分析的卷积神经网络生成的高级语义信息相结合。提出的图结构(Graph Structure),既考虑了图片的纹理和颜色特征,也利用了由深度神经网络生成的更高层的语义信息,揭示了语义对象以及它们之间的软转换相应Laplacian 矩阵的特征向量并自动的生成 soft segments。最后通过引入一个空间变化的层稀疏度模型,该模型可以根据特征向量生成高质量的层,可用于图像编辑。作者演示了使用soft segments可以轻松地完成复杂的图像编辑任务。

2 RELATED WOEK

软分割是将图像分解为两个或更多个片段,其中每个像素可以部分地属于多于一个片段。层内容根据相应方法的具体目标而改变。我们利用了消光拉普拉斯和谱分解,遵循光谱消光的想法来构建了一个图形,它将来自深层网络的高级信息与本地纹理信息融合,以生成对应于图像中语义有意义的区域的软段。

出发点:
能够分割图片中的不同物体,同时精确表示出分割物体间的过渡情况.
自动完成分割,不用手工操作.

Semantic Soft Segmentation,自动将图像分解为不同的层,以覆盖场景的物体对象,并通过软过渡(soft transitions) 来分离不同的物体对象.

相关研究方向:

Soft segmentation - 将图像分解为两个或多个分割,每个像素可能属于不止一个分割部分.
Natural image matting - 估计用于定义的前景区域中每个像素的不透明度. 一般输入是 trimap,其分别定义了不透明的前景,透明的背景以及未知透明度的区域.
Targeted edit propagation
Semantic segmentation - 语义分割

3 METHOD

Question:

给定输入图片,自动生成其软分割结果,即,分解为表示了场景内物体的不同层,包括物体的透明度和物体间的软过渡.
每一层的各个像素由一个透明度值alpha表示. alpha=0 表示完全不透明(fully opaque),alpha=1 表示完全透明(fully transparent),alpha 值在 0-1 之间的中间值则表示不同水平的部分透明度。使用一个附加的图像构成模型进行描述:

在这里插入图片描述

输入图片的 RGB 像素可以表示为每一层中的像素值与对应的 alpha 值的加权和.

3.1 Background

Spectral matting

本文的方法建立在 Levin等人的工作上,Levin等人首次提出了matting Laplacian的概念,他们首先介绍了使用局部颜色分布来定义矩阵L的消光拉普拉斯算子,该矩阵L捕获 local batch(通常是像素)中每对像素之间的亲和度,典型的是5×5的batch。使用该矩阵,它们使用户提供的约束最小化二次函数 αTL α,其中 α 表示一个层的所有 α 值构成的向量。这个数学形式,表明了 L 小特征值对应的向量对高质量mattes有很重要的作用。受此观察的启发,他们随后在光谱消光方面的工作使用了特征向量来构建软分割。每一个软分割是 LK 个最小特征值对应向量的线性组合,并且最大化matting sparsity,例如:最小化部分不透明的出现。分割由最小化一个倾向于 α =0 and α = 1的能量函数确定:

在这里插入图片描述

其中 αip 是第 i 个分割的第 p 个像素上的 α 值, EK 个最小特征向量构成的矩阵,y⃗ i 是相应的权重向量,γ 是一个控制稀疏先验的一个超参数。

spectral matting在识别对象单一且清晰时可以很好产生满意的结果,但是需要做的是处理多场景和多对象的情况。所以需要在原有基础上添加更加高级的信息。

Affinity and Laplacian matrices

Levin等人将问题形式化一个最小二乘优化问题,并直接引向一个Laplacian矩阵。一个替代的方法是表述每一对像素之间的关系(Affinity) [Aksoy et al.2017a]. 具有正近似相关的像素对有更大的可能有相同的 α 值,0近似相关的像素对是独立的,负近似关系的像素对应该有不同的值。本文采用的是关系这一方法,据此对应一个标准化的Laplacian矩阵:

在这里插入图片描述
其中 W 是包含所有像素对近似关系的方阵,D 则是一个度矩阵(是对角矩阵)

3.2 Nonlocal Color Affinit

为了表示较大范围的像素对之间的关系,作者定义了一个附加的低级关系项(low-level affinity term),提出了基于图像的过度分割(over-segmentation)的引导采样(guided sampling)构建低层次的仿射关系项,以表示基于颜色的像素间较大范围的关联性特征。

构建过程:
(1)- 采用 SLIC 生成 2500 个超像素;
(2) - 评估每个超像素和对应于图像 20% 尺寸半径内所有超像素的仿射关系(Affinity).

这种方法的优点是每个特征都足够大而成为超像素,但稀疏性仍然很高,以为使用的是每个超像素的单个样本,并且可以使用较大的半径连接可能断开的区域。最后,对于两个由小于20%的图像尺寸的距离分割的超像素 st,定义它们的质心的颜色关系(color affinity)ws,tC
在这里插入图片描述

其中cs​,ct​∈[0,1] 是超像素的均值颜色, erf 是高斯误差函数,ac,bc 是控制affinity下降的速率和变为0的阈值。

本文使用的参数值为: ac=50,bc =0.05

这种关系本质上保证了颜色非常相似的区域在复杂场景结构中的连接性,其效果如下图:
在这里插入图片描述

3.3 High-Level Semantic Affinity

虽然 nonlocal color affinity 添加了像素间大范围间的相互作用关系,但仍是低层特征。在没有附加信息的情况下,分割仍然经常合并属于不同对象的颜色相似的图像区域。我们添加了一个语义关系——鼓励对属于同一场景对象的像素进行分组,并且阻止来自不同对象的像素进行分组。我们基于对象识别领域中的先前工作,计算与底层对象相关的每个像素的特征向量。通过使用神经网络计算相应的特征,生成的特征向量应该使得:如果两个像素点 pq 属于的相同的对象 fp​ 和 fq 那么有 ∥fp−fq∥≡0 ,并且对不同分割区域的第三个像素 r ,$ f_r应该远远不同:应该远远不同:
对于每个超像素 s,我们将它的均值特征向量 f˜s与质心联系起来。于是我们可以这个特征向量来定义两个超像素 s,t 之间的关系:

在这里插入图片描述
这里构建高层语义仿射关系项,以使得属于同一场景物体的像素尽可能的接近,不同场景物体的像素间的关系远离。

添加之后的效果如下:

在这里插入图片描述

3.4 Creating the Layers

通过对 Laplacian 矩阵进行特征分解,提取特征向量,并对特征向量进行两步稀疏处理,来创建图像层.

Forming the Laplacian matrix.

构建Laplacian矩阵通过之前添加的关系矩阵,有:

在这里插入图片描述
其中 WL是包含matting关系的矩阵,WC​ 是包含非局部颜色关系的矩阵,WS 是包含语义关系的矩阵,σS,σC是控制相应矩阵影响力的参数,全部设置为 0.01

Constrained sparsification

提取 L 矩阵的 100 个最小特征值对应的特征向量,在下式的优化过程中令 γ = 0.8
在这里插入图片描述

约束对比见下图:

在这里插入图片描述

Relaxed sparsification

为了改善层的稀疏性,选择放宽他们特征向量的线性组合的约束。并不通过调整系数 yi​ 来处理,而是通过调节 α
首先,放宽子空间约束,并且仅确保生成的层保持靠近使用稀疏化约束过程中创建的层 α

在这里插入图片描述
同时放宽累加为1的要求,作为软约束集成到线性系统中:

在这里插入图片描述
其中,αip​ 表示在第 i 层上第 p 个像素的 α 值。下面是Laplacian L 定义的能量,它定义了 L=D-1/2(D−( WL+ σsWSσcWC ))D-1/2​ 的空间传播:
在这里插入图片描述
最后,我们制定了一个适应图像内容的稀疏性术语。直观地,部分像素来自图像中的颜色过渡,因为在许多情况下,它对应于两个场景元素之间的过渡,例如,泰迪熊和背景之间的模糊过渡。 我们使用这种观察来建立一个空间变化的稀疏能量:

在这里插入图片描述
将这些项放在一起,可以得到
在这里插入图片描述

效果如下:

在这里插入图片描述

在这里插入图片描述

3.5 Semantic Feature Vectors

在高层特征构建时,相同物体的像素的特征向量相似,不同物体的像素的特征向量不同.
特征向量是采用语义分割的深度网络模型训练和生成的.

这里采用了 DeepLab-ResNet-101 作为特征提取器,但网络训练是采用的是度量学习方法,最大化不同物体的特征间的 L2 距离(稍微修改了 N-Pair loss).

在这里插入图片描述

在 COCO-Stuff 数据集上进行语义分割网络的训练。采用 guided filter 将网络生成的 feature map 与图像进行边缘对齐;然后采用 PCA 降低 feature map 维度到 3;最后,归一化特征向量值到 [0, 1]。

在这里插入图片描述

3.6 Implementation Details

使用MATLAB中可用的稀疏特征分解和直接求解器来实现我们算法的约束稀疏化阶段的概念验证实现。 对于640×480图像,此步骤大约需要3分钟。 松弛的稀疏化步骤使用MATLAB的预处理共轭梯度优化实现。 每次迭代通常在50到80次迭代中收敛,并且该过程大约需要30秒。 我们算法的运行时间随着像素数的增加而线性增长。

4 EXPERIMENTAL ANALYSIS

4.1 Spectral Matting and Semantic Segmentation

我们将结果与spectral matting[Levin et al.2008b]的结果一起显示为我们最相关的软分割方法,以及两种最先进的语义分割方法:the scene parsing method by Zhao et al. [2017] (PSPNet) and the instance segmentation method by He et al. [2017] (MaskR-CNN).

在这里插入图片描述

在这里插入图片描述

4.2 Natural Image Matting

我们在图11中展示了这种情景的两个例子,通过使用Mask R-CNN和PSPNet结果生成三维图并使用information-flow matting [Aksoy et al.2017a]。如图中突出显示的,这导致消光结果中的严重伪影。我们展示了使用我们的演示结果生成的准确trimap,自然消光方法成功。

在这里插入图片描述

在这里插入图片描述

4.3 Soft Color Segmentation

软色分割,最初由Tai etal. [2007]提出的概念。将输入图像分解为均匀颜色的软层,并且已被证明对图像编辑和重新着色应用有用。图13显示了使用了unmixing-based soft color segmentation [Ak-soy et al.2017b]的结果。 为了更方便的定性比较,我们使用 closed-
form color estimation method [Levin et al. 2008a]的方法估算了软段的层颜色。 从而可以立即看到柔和色段的内容超出对象边界,而且我们的结果显示同一段中具有语义意义的对象,无论它们是什么颜色内容。 由于这些表示彼此正交,因此可以在编排中使用它们来生成目标重新着色结果。
在这里插入图片描述

在这里插入图片描述

4.4 Using Semantic Soft Segments for Image Editing

我们在图14中展示了用于目标图像编辑和合成的软段的几个用例。图14(1,3,4,7)显示了合成结果,我们使用 closed-form layer color estimation [Levin et al.2008a]估算了段的层颜色。注意所选前景层和新背景之间的自然柔和过渡。 软段也可用于目标图像编辑,其中它们用于定义掩模对于特定的调整层,例如在(2)中向火车添加运动模糊,在(5,6)中分别对人和背景进行颜色分级,以及将热气球,天空,地形和人物分开的风格化(8))。 虽然这些编辑可以通过用户绘制的蒙版或自然消光算法完成,但我们的表示提供了方便的中间图像表示,使艺术家可以毫不费力地进行目标编辑。

在这里插入图片描述

5 CONCLUSION

本文提出了一种方法,通过融合来自低级神经网络的高级信息,生成对应于图像中具有语义意义的区域的soft segments。图像功能完全自动化。 我们已经表明,通过仔细定义图像中不同区域之间的亲和力,可以揭示具有语义边界的soft segments构造拉普拉斯矩阵的谱分析。 所提出的用于soft segments的松弛稀疏化方法可以生成精确的软转换,同时还提供稀疏的层组。 我们已经证明,虽然语义分割和光谱软分割方法无法提供足够精确的图像编辑任务层,但我们的soft segments提供了方便的中间图像表示,使得几个目标图像编辑任务变得微不足道,减免了不必要的手工编辑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值