文章目录
面向图像抠图的三方信息挖掘与集成
Tripartite Information Mining and Integration for Image Matting
KeyPoint
Overview
- 主要的问题在于提出的3分支虽然可以提高抠图质量,但是其速度和实时性作者并没有给出相关数据。
- 论文提出的TIMInet模型需要给定trimap作为输入给模型进行训练。
- 论文自制了一个大规模的人体抠图数据集***(human - 2k)***来推进人体图像抠图,该数据集由2100张高精度人体图像组成(训练图像2000张,测试图像100张)
- 借鉴了Non-local思路,架构部分为ResNet
Keywords
3-branch encoder:
incomplete information mining:
Tripartite Information Integration ( T I 2 TI^2 TI2) Module:三方信息集成模块,集成互补的特征
coordination between global and local attributes
RGB-Trimap branch and RGB-Unit
RGB-Trimap branch and Trimap-Unit
short cut
attention map
Non-Local
self-attentive map
terms
transition regions:
TIMINet:Tripartite Information Mining and Integration Network:三方信息挖掘和融合网络
ill-posed:抠图问题是一个病态问题,即已知3通道(如RGB)图像中的一个像素,需要求解7个未知值(即3个前景通道,3个背景通道,1个alpha通道)。本身信息是不完全的。
sampling-based methods and affinity-based methods.
low-level details and the other for higher-level positioning
inherent coordination:内在协调性
SOTA:state-of-the-art 的简称,即最先进的
摘要
随着深度卷积神经网络的发展,图像抠图迎来了一个新的阶段。关于图像抠图的本质,大部分的研究都集中在过渡区域的解决方案上。然而,我们认为,现有的许多方法过分关注过渡主导*(transition-dominant)的局部领域,忽视了全局信息与过渡优化之间的内在协调。在本文中,我们提出了**三方信息挖掘与集成网络(Tripartite Information Mining and Integration Network, TIMINet)***来形式化地协调全局属性和局部属性之间的协调。
In this paper , we propose the Tripartite Information Mining and Integration Network (TIMINet) to harmonize the coordination between global and local attributes formally.
具体地说,我们采用一种新的三分支编码器来完成输入信息的综合挖掘,弥补了全局域和局部域之间被忽略的协调。为了实现这些多分支信息之间有效和完整的交互,我们开发了三方信息集成( T I 2 TI^2 TI2)模块来转换和集成不同分支之间的交互。
此外,我们建立了大规模的人体抠图数据集***(human - 2k)来推进人体图像抠图,该数据集由2100张高精度人体图像组成(训练图像2000张,测试图像100张)。最后,我们进行了大量的实验来证明我们提出的TIMI-Net*的性能,结果表明我们的方法比在其他数据集包括在alphamatting.com (排名第一),Composition-1K (MSE0.006, grade -11.5)、distinction646和Human-2K上的SOTA(state-of-the-art)方法表现得更好。此外,我们还开发了一个在线评估网站,以执行自然图像抠图。
引言
数字抠图是计算机视觉的重要任务之一,其目的是准确估计图像和视频序列中前景目标的不透明度。它具有广泛的应用,特别是在胶片制作和数字图像编辑等领域。形式上,输入图像被建模为前景和背景颜色[41]的线性组合,如下图所示:
I
i
=
α
i
F
i
+
(
1
−
α
i
)
B
i
,
α
i
∈
[
0
,
1
]
I_i=\alpha_i F_i +(1−\alpha_i)B_i ,\quad \alpha_i \in [0, 1]
Ii=αiFi+(1−αi)Bi,αi∈[0,1]
其中
α
i
∈
[
0
,
1
]
\alpha_i \in [0, 1]
αi∈[0,1]表示输入图像像素点i处的不透明度,$F_i和B_i $表示前景(Fg)和背景(Bg)颜色。这是一个极不恰当的问题。
The problem is highly ill-posed
对于典型的3通道(如rgb)图像中的一个像素,需要解决7个未知值(即3F,3B 1 alpha),但只有3个已知量(3 I)。
为了解决这个问题,经典方法[7,23,46,52]利用trimap作为一种约束信息来缩减解空间。trimap由白色、黑色和灰色三部分组成,分别代表前景、背景和过渡区域。许多方法[2,6,31,38,43,62]试图在没有辅助线索的情况下预测阿尔法蒙版。尽管它们可以产生有希望的结果,但真实世界和合成图像之间的差距仍然存在,而且由于合成的伪影*(composited artifacts)*,这可能会放大,从而导致较差的泛化。
通常,几乎所有基于trimap的方法[56,34,49,3,17]通过喂给网络连接的RGB图像和trimap,从而显式地执行过渡优化。其他无trimap方法[6,62,31]通过损失函数隐式地构建一些过渡变量(伪trimap)来指导局部区域优化。但在过渡的约束下,这些方法过于关注局部区域,可能忽略全局属性与局部属性之间的协调(如纹理相似性、位置相关性等),导致信息挖掘不完全。
在本文中,我们提出了一个三方信息挖掘和集成网络(TIMI-Net),通过挖掘和集成来自RGB和Trimap的多模式信息来获取足够的全局信息。在信息挖掘方面,我们认为不同模式的特征具有互补的全局信息。RGB图像可以提供详细的低级外观(如纹理和颜色相似性),而高级位置相关性(语义,形状等)可以在trimap中找到。因此,我们构造了两个特定功能的单元(称为RGB uint和Trimap uint)来执行单独的挖掘。
在信息集成方面,我们可以直观地 add 或 concat 来自多个分支的特征,如[17,62]。但是,由于不同类型的全局信息和初始局部信息的不同特征,会导致不完全整合。为了有效地结合它们,受Non-Local[53]启发,我们开发了一个三方信息融合( T I 2 TI^2 TI2)模块,转换和融合了双边关系的两流RGB-Trimap分支和RGB-Unit, RGBTrimap分支和Trimap-Unit。
we have developed a Tripartite Information Integration ( T I 2 TI^2 TI2) module that transforms and integrates two streams of bilateral relations RGB-Trimap branch and RGB-Unit, RGB-Trimap branch and Trimap-Unit.
通过这种方式,全局信息可以被用来引导本地信息的传播,从而促进两者的协调。我们的主要贡献可以总结如下:
-
我们提出了一种三部信息挖掘与集成网络(TIMI-Net),该网络包含一个用于图像抠图的三部信息集成( T I 2 TI^2 TI2)模块,能够充分挖掘和集成来自RGB图像和trimap的互补的全局信息。
-
我们建立了一个包含2000张训练图像和100张测试图像的大规模人体匹配数据集。据我们所知,这是世界上最大的高精度人体图像抠图数据集。我们将对公众开放,以推进人体图像抠图任务。
-
实验结果表明,所提出的TIMI-Net在合成图像和真实图像上都能达到SOTA性能,证明了所提出方法的有效性和优越性。
相关工作
在本节中,我们将从三个方面简要回顾图像抠图:传统的和基于深度学习的方法,抠图数据集。
传统的求解该病态问题的方法*(ill-posed)*主要依赖于trimap和粗糙的约束信息,主要分为两大类:基于采样的方法和基于亲和的方法。基于采样的方法[9,12,13,19,40,18,52,44,51]收集一组已知的前景和背景样本,为给定像素的前景和背景寻找候选颜色。Alpha蒙版可以通过对图像统计数据应用局部平滑假设来计算。基于亲和度的方法[23,1,7,22,46,15,24]重构了Eq.1,因此它可以利用邻近像素的亲和度将一个已知的alpha值从已知区域传播到未知区域。
由于深度卷积神经网络的发展,基于深度学习的算法在许多任务上取得了巨大的成功(例如,目标检测[50],图像恢复[54,59,55]和特定区域分割[35,36])。
-
在抠图中,Shen et al.[45]首先将CNN应用到人像抠图中。
-
DCNN[8]将[23]和[7]的结果合并,并与CNN融合得到最终的alpha。
-
为了便于端到端训练,Xu et al.[56]提出了第一个合成数据集,并取得了良好的性能。
-
随后,AlphaGAN[34]引入生成对抗网络(Generative Adversarial Network, GAN)[14]来改进alpha蒙版。随后,一系列的方法[49,4,17,33,26,60,32,27,10,47]进行了不同的改进,以获得更好的结果。
-
Adamatting[3]和CAM[17]从RGB角度研究了trimap中的位置信息(语义和形状)和全局上下文信息(颜色和纹理)。
-
GCA[26]模仿图像修复[61]传输已知区域的上下文信息,
-
HDMatt[60]利用patch学习已知和未知区域之间的交叉patch信息。尽管他们的一些方法寻求背景区域的相关信息,但仍然忽略了全局和局部的协调。
在我们的方法中,我们首先协调全局信息和局部信息之间的协调关系,然后以三方协作的方式挖掘和整合局部信息和互补的全局信息。
In our method, we harmonize the coordination between global and local information, and then mine and integrate the local and complementary global information in a tripartite collaborative manner.
还有许多方法[6,58,39,57,38,31,43,28,20,25]可以在不使用trimap作为额外约束的情况下获得alpha蒙版。虽然有时可以获得令人满意的结果,但仍然存在一些潜在的问题,如合成图像与真实图像之间的差距增大,对真实图像的泛化程度较低,用户无法选择感兴趣的区域,对其他附加信息的需求(例如背景,其他任务的分割图等)。因此,本文主要研究基于Trimap的图像抠图。
抠图数据集:由于alpha抠图数据获取极其困难,且商业价值高,这也导致数据驱动方法的训练和推理困难。如表1所示,第一个抠图数据集是在DAPM[45]中提出的,只关注人像图像。随后构建了两个数据集,Composition-1K[56]和Distinctions-646[38],分别有216张用于训练的人体图像和343张人体图像(333用于训练,10用于测试)。然而,由于质量和数量的问题,人体图像抠图仍然缺乏统一的基准。为了缓解这一差距,我们建立了一个大规模的人体图像抠图数据集,其中包含了2000张和100张高质量的人体图像,分别用于训练和测试。
表1:不同公共抠图数据集的比较。V、H、R分别为总数、人数、平均分辨率。
Methodology
Motivation
对于基于trimap的方法,大多数传统方法都是基于各种局部信息(如局部平滑假设[40])求解未知alpha。对于基于深度学习的方法,使用trimap或过渡变量(伪trimap)[6,62,31]来约束解区域,从而帮助网络优化过渡区域。然而,这两种类型都密切关注过渡区域周围的局部区域,可能会忽略全局信息和局部信息(纹理和颜色相似度、位置相关性等)之间的协调。
注:图2:信息传播模式分类。1和2表示卷积运算集中于已知区域(Bg和Fg),3作用于纯未知区域,4和5分别表示信息从Bg和Fg流向过渡区域。黑色虚线表示卷积滑动方向。蓝色区域是指过渡区域。红框显示一个随机集的3×3卷积权重。为了更好的可视化,我们将未知区域的宽度扩大两倍。
如图2所示,在进行卷积运算时,卷积核从左向右滑动。类型1、2和3只关注局部未交叉的字段(未知或已知区域)。只有4和5执行启发式的传输*(enlightened transfers),信息分别从Bg和Fg流向过渡区域。因此,这个范例更关注局部特征,类似于部分卷积[30]。此外,随着网络的深化和分辨率的降低,导致trimap中全局定位指导**(global positioning guide)***的大量丢失,进一步削弱了未知区域与已知信息的亲和性。
为此,本文分析并提出了一种信息挖掘与集成网络。通过对输入RGB图像和trimap的多模态信息*(multi-modal information)*的挖掘和整合,弥补了被忽略的全局和局部字段之间的协调。具体来说,在保留主流的RGB-Trimap分支用于本地信息获取的同时,基于对RGB和trimap的效果进行详细的外观挖掘和相关的位置指导,我们设计了两个功能特定的单元RGB-Unit和Trimap-Unit。*在从两个独立的单元获得各自的功能后,如何将它们与主流单元进行功能整合是一个关键问题。加或连接可能是最直接的方法。然而,由于特征不明显,它们往往产生不理想的结果。相反,我们开发了一个三方信息集成( T I 2 T I^2 TI2),它允许充分集成互补的特征。关于RGB-Unit和Trimap-Unit与RGB-Trimap分支的互补性, T I 2 T I^2 TI2可以利用RGB-Triamp分支和RGB-Unit以及RGB-Trimap分支和Trimap-Unit计算出的两种不同的注意值(different attentions)***来转换全局信息。这样,可以有效地捕捉互补的特征,从而协调全局和地方的信息协调。
Network Structure
该方法的总体架构如图3所示。我们的方法使用 U-Net [42] 结构,以每个编码器块和解码器块中的short cut(蓝色)为基线,用于获取 RGB Trimap 分支中已被其他人识别的局部信息方法 [33, 26]。在此基础上,我们开发了RGB-Unit和Trimap-Unit,用于各自的全局信息挖掘。在两个单元和解码器的每个块之间也有一个short cut (Orange or Gray)。
注:图3: 提出的TIMI-Net的传输路径*(Pipeline)*。rgb - unit(橙色矩形)和trimap - unit(灰色矩形)分别接收rgb和trimap进行全局信息挖掘。蓝色矩形为主流局部信息的RGB-Trimap处理。Trimap-Unit和RGB Trimap分支的编码器分别采用ResNet-18[16]和ResNet-34[16]。三方信息集成(T I2)模块从RGB-Trimap分支接收三个输入,RGB-Unit和Trimap-Unit。利用ASPP[5]提取多尺度上下文信息。
然后,将RGB-Trimap分支和其他两个单元的特性集成到三方信息集成(Tripartite Information Integration, T I 2 T I^2 TI2)中。为了增强RGB-Trimap分支的表示能力,我们引入了ASPP[5]来提取高级语义信息。
RGB-Unit:我们使用了三个连续的卷积操作,卷积核大小为3来实现这一点。通道数分别为16、64和128。此外,考虑到 T I 2 T I^2 TI2的位置和计算负担,我们将三个卷积的步长设为2,从而实现8x下采样,以兼容分辨率和计算。使用这种浅层设计模式,可以保留全局外观,特别是来自未混合RGB字段的颜色和纹理信息,当前景和背景局部相似时,可以很好地消除歧义。[17]。
Trimap-Unit:位置相关性对于从trimap建模远程语义和形状也很重要,特别是对于几乎所有区域都是过渡区域的图像(如网,半透明等)。然而,这个特性在基本RGB-Trimap结构中没有得到充分利用。为此,我们求助于一个相对较深的网络,ResNet-18[16],来提取建模位置属性的高级全局表示。同时,为了保持与主流RGB-Trimap的特性相同的分辨率,我们只使用了前三个block (conv1, res-2, res-3),并且不改变ResNet-18[16]的内核大小和通道数量。值得注意的是,我们保留了最大池化以增加感受野以获得更多的全局视图,而其他两个下采样是在res-2和res-3的第一次卷积上执行的。
三方信息集成:当我们从RGB-Trimap分支、RGB-Unit和Trimap-Unit中获得这些特性时,主要的问题是如何有效地集成它们。一般来说,添加或连接是一种简单的方式,但它们倾向于平等对待不同形式的特征。受非局部模型[53]的启发,为了整合互补的多模态全局信息,我们利用两个独立单元获得的两个注意图作为索引,分别从主流RGB-Trimap分支充分获取它们的属性信息。
我们首先简要回顾Non-local模型,它通常可以定义为:
Y
=
g
(
X
)
A
(
X
)
Y=g(X)A(X)
Y=g(X)A(X)
其中
X
∈
R
H
×
W
×
C
和
Y
∈
R
H
×
W
×
C
X \in \mathcal{R}^{H×W×C}和Y \in \mathcal{R}^{H×W×C}
X∈RH×W×C和Y∈RH×W×C为输入特征和输出注意特征(attentive features),其中H、W、C分别表示其高度、宽度和通道数。
A
(
X
)
A(X)
A(X)为输出注意地图的归一化函数:
A
(
X
)
=
s
o
f
t
m
a
x
(
θ
(
X
)
T
ϕ
(
X
)
)
A (X) = softmax(\theta(X)^T \phi(X))
A(X)=softmax(θ(X)Tϕ(X))
g
、
θ
、
ϕ
g、θ、ϕ
g、θ、ϕ是可学习的嵌入函数,而
X
X
X是从同一个域中提取的特征。
由式2和式3可以看出, Non-Local集中在同一特征
X
X
X上,并以双线性映射的方式计算自注意图。而在我们的例子中,RGB图像和Trimap是一种跨模态信息。RGB图像具有丰富的全局外观(颜色、纹理等),而trimap可以看到更全面的高层信息(语义和形状属性)。因此,我们使用不同形式的补充信息来合并特征互补。在形式上,RGB-Trimap分支、RGB-Unit和Trimap-Unit的特征描述为
X
R
_
T
∈
R
H
×
W
×
C
R
_
T
X_{R\_T} \in \mathcal{R}^{H×W×C_{R\_T}}
XR_T∈RH×W×CR_T ,
X
R
∈
R
H
×
W
×
C
R
X_{R} \in \mathcal{R}^{H×W×C_{R}}
XR∈RH×W×CR,
X
T
∈
R
H
×
W
×
C
T
X_{T} \in \mathcal{R}^{H×W×C_{T}}
XT∈RH×W×CT。考虑到RGB和Trimap模式的两个特性
X
R
X_R
XR和
X
T
X_T
XT,我们集成了
X
R
_
T
X_{R\_T}
XR_T:
O
u
t
p
u
t
T
I
2
=
X
R
_
T
(
A
(
X
R
)
+
A
(
X
T
)
+
1
)
Output_{TI^2}=X_{R\_T}(A(X_R) +A(X_T) + 1)
OutputTI2=XR_T(A(XR)+A(XT)+1)
对于
X
R
X_R
XR和
X
T
X_T
XT,我们将它们分别嵌入到
θ
\theta
θ和
ϕ
\phi
ϕ空间中,分别获得它们的注意特征。而对于
X
R
_
T
X_{R\_T}
XR_T,我们不是对它进行线性嵌入
g
g
g,而是用残差来叠加互补信息。因此,在整个过渡优化过程中,可以利用全局信息来引导局部信息。考虑到计算成本,我们只选择在output stride = 8时的编码器和解码器阶段部署它。
损失函数
为了验证这个模式的有效性,防止由于其他损失造成的偏差,我们在所有实验中只使用alpha损失:
L
α
=
∣
α
g
i
−
α
p
i
∣
L_\alpha=|\alpha^i_g−\alpha^i_p|
Lα=∣αgi−αpi∣
这里i指的是像素位置。g和p分别代表GT和预测alpha。
评估
Experiment Settings
为了验证该方法的有效性,我们对以下四个数据集进行了性能评估。
- alphamatting.com:是一个在线基准网站,提供27幅图像和alpha mattes用于训练,7幅图像用于评估。
- Composition-1K:它包含431和50组前景图像和alpha mattes用于训练和测试。将COCO[29]和VOC[11]的背景图像分别以1:100和1:20的比例合成新的图像。
- Distinctions-646:该数据集提供了596和50组前景图像和alpha蒙版,具有更具有挑战性和多样化的训练和测试对象。它采用与Composition-1K相同的规则和比例。
- Human-2K:虽然一些公共数据集可以用于人类图像抠图任务,但数量和质量仍然是一个问题。此外,我们缺乏一个统一的比较基准。相反,我们的Human-2K提供了2100高精度的图像和alpha遮罩,这足以作为训练(2000)和测试(100)的基准。与Composition-1K[56]相同的规则和比率在Human-2K中被用于合成新图像。
*Implementation Details.*提出的架构建在公开的PyTorch[37]工具箱上,并在24核 i9-9920X 3.5GHZ CPU、128GB RAM和NVIDIA Tesla V100 GPU上进行训练。我们使用Adam[21]优化器进行所有网络训练,初始学习率为0.01,批量大小为16。对于Composition-1K [56], Distinctions-646[38]和Human-2K数据集,**学习率分别在{20,30,40},{60,80}和{90,100,120}个时期除以10。**以上三个数据集分别用5天、10天、15天训练出50个epoch、100个epoch和150个epoch。我们使用[56,62,38]的方法进行数据增强。为了进行训练,我们对输入图像进行随机裁剪,并以512×512, 640×640和960×960的分辨率进行修剪,然后对它们进行随机缩放、翻转和[-60,60]度之间的旋转。在进行推理时,我们向网络提供全分辨率的图像和trimap来预测阿尔法蒙版。
**评价指标:**我们遵循[17,3,33,26]使用以下四个指标进行比较。即绝对差异和,均方根误差,梯度误差和连通性误差。
Comparison to Prior Work
为了评价该方法的性能,我们用可用的代码或结果与其他2种经典和9sota基于深度学习的图像匹配方法进行了定量和直观的比较,包括KNN [7], Closed-Form[23], DCNN [8], DIM [56], AlphaGAN [34], IndexNet [33], CAM [17], SampleNet [49], GCA [26],BgMatting[43]和HDMatt[60]。
表2:我们的方法与使用SAD度量的9种代表性算法的比较。“O”表示总体排名,“S”、“L”和“U”表示不同难度等级的trimaps的表现。无论trimap (Small,Large, orUser)的质量如何,我们的方法都排名第一。
表2、3、4、5列出了我们的模型和SOTA方法在四个数据集上的定量结果。我们的模型在公开基准alphamatting.com上排名第一,在Composition1K、Distinctions-646数据集和我们的人类图像匹配基准上的所有指标上都优于所有这些基准。与使用patch的HDMatt[60]相比,我们的方法在component - 1k测试集上产生了29.08和11.5的SAD和Conn结果,这带来了4.42和4.54的改进。同时,在Composition-1K测试集上,我们的模型在SAD和Grad方面有6.22和5.40的改进,大大优于GCA[26]。同样的改进可以在不同的Distinctions-646和Human-2K数据集中看到,证明了我们的方法在协调来自互补的RGB和Trimap模式的全局和局部信息方面的优势。我们还在图4、5、6和7中给出了视觉对比。可以明显地看到,我们的方法可以获得精细的细节,如图7中的发梢部位、指尖缝隙。
将我们的方法与使用SAD度量的9种典型算法进行比较。“O”表示总体排名,“S”、“L”和“U”表示不同难度等级的trimaps的表现。无论trimap (Small,Large, orUser)的质量如何,我们的方法都排名第一。
Internal Analysis
我们还在三个数据集上验证了TIMI-Net中每个组件的有效性(表3、4、5)。
注:表3:Composition-1K[56]测试集的定量结果。∗表示结果未在其论文中显示。Basic 和 +表示我们的基线网络和加法操作。
basic 表示具有局部信息获取short cut的U-Net[42]结构,RGB-Unit和Trimap-Unit分别用于挖掘全局外观和位置相关性*( mine global appearance and position correlation)*。 S _ I S\_I S_I是指来自RGB-Trimap分支的局部信息与来自RGB-Unit和Trimap-Unit的全局信息的附加融合。 T I E 2 T I_E^2 TIE2 和 T I D 2 T I_D^2 TID2表示 T I 2 T I^2 TI2应用于编码器和解码器。
如表3所示,我们以Composition1K的结果为例。
(i)与基线模型相比,我们的RGB uint的添加分别使SAD和Conn降低了5.48和6.76,提供了强有力的证据,表明RGB域的全局外观对于指导过渡优化至关重要,特别是对于建模颜色和纹理相似性。
(ii) Trimap-Unit也改进了结果,表明过渡区与已知区域(Fg和Bg)之间的像素位置相关是必要的。
(iii) 我们还可以看到,通过将RGB-Unit和Trimap-Unit合并到主流分支中,与每个单独的单元相比,结果得到了进一步的改进,这验证了两者之间的互补性,一个用于低级细节,另一个用于高级定位。(low-level details
and the other for higher-level positioning)
(vi) 与 S _ I S\_I S_I相比,提出的 T I 2 T I^2 TI2可以更好地整合来自两种互补模式的全局和局部信息,因为它可以充分建模***(model)***每种模式的主流全局和局部信息之间的相互关系。值得注意的是,无论我们的 T I 2 T I^2 TI2应用于编码器还是解码器,都显示出增长。结果显示,MSE和Grad指标分别提高了5.6%和7.2%, T I E 2 T I_E^2 TIE2分别提高了11%和12%。
(v) 解码阶段的信息复用可以进一步协调全局信息和局部信息的协调,从而取得了较好的效果。类似的结果也可以在表4和表5中看到。
Generalization Analysis
为了证明我们的方法和Human-2K数据集的泛化能力,我们在不同的数据集上使用不同的模型进行了交叉比较实验。我们使用Composition-1K[56]和Human-2K数据集的整个训练集来训练每个模型。为了测试,我们从Composition-1K[56]测试集中只选择了有人类的图像。如表6所示,具有代表性的方法DIM[56]和IndexNet[33]和我们的TIMI-Net的性能都得到了改善,特别是对于具有MSE和Grad的DIM分别提高0.005和4.67,这表明我们的数据集的泛化是稳健的,可以用作基准。与此同时,我们的模型仍然是最优的,这也暗示了它的优越性。
表6:Human-2K数据集的泛化分析。C和H是Composition-1K[56]和我们的Human2K数据集。C_C和H_C表示在C和H上训练的模型,然后在C上进行测试。
Real-World Image Matting
在实践中,为了方便选择感兴趣的区域,要求新手根据已知和未知区域绘制trimap。如图1所示,这些边角料的质量较差。然而,由于我们的方法协调了更多的全局信息,我们的结果比CAM[17]更好。值得注意的是,这两种模型都只使用Composition-1K[56]训练集训练。
结论
在本文中,我们观察到以往的图像抠图方法更多地关注靠近过渡区域的局部区域,这可能忽略了全局信息和局部信息之间的协调。在此基础上,我们提出了一种新的三方信息挖掘与集成模型,以充分补充被忽视的协调问题。为了推进人体图像抠图任务的发展,我们编写了一个新的大规模高精度人体图像抠图数据集**(human - 2k)**。最后,我们进行了大量的实验来验证该方法对SOTA方法的有效性。我们的方法确实有局限性,两个单元的参数和计算成本限制了它的实时性。在未来,我们将探索如何利用其他技术以一种轻松的方式对图像和视频抠图进行远程信息建模[48,63]。
法更多地关注靠近过渡区域的局部区域,这可能忽略了全局信息和局部信息之间的协调**。在此基础上,我们提出了一种新的三方信息挖掘与集成模型,以充分补充被忽视的协调问题。为了推进人体图像抠图任务的发展,我们编写了一个新的大规模高精度人体图像抠图数据集**(human - 2k)**。最后,我们进行了大量的实验来验证该方法对SOTA方法的有效性。我们的方法确实有局限性,两个单元的参数和计算成本限制了它的实时性。在未来,我们将探索如何利用其他技术以一种轻松的方式对图像和视频抠图进行远程信息建模[48,63]。