一、背景
随着短视频和直播应用的兴起,人们对图像视频编辑的需求逐渐增多。抠图技术作为图像视频编辑的基础能力之一,也越来越受到学术界、工业界及互联网行业等的关注和研究。
一张图像可以简单看成是由两部分组成,即前景和背景。而图像抠图(Image Matting),就是指从图像中提取出我们所感兴趣的前景目标,同时过滤掉背景部分。假设原始图像用 来表示,α为对应的Alpha通道,
和
分别表示对应的前景和背景图像。那么一张RGBA通道的图像可以通过公式
得来。
不同于语义分割,抠图属于软分割(Soft Segmentation)之一,其难点在于如何处理精细的毛发结构以及具有不同透明度的前景物体。由于抠图是一个不适定问题(ill-posed),即在只给定RGB图像的情况下,Alpha、前景以及背景图层都是未知数,因此在前景物体未知的抠图场景中,通常用户会提供额外的输入告诉模型待求解的前景物体的大致位置和形状,如Trimap图(如下图)。Trimap图,又称三类别掩膜图,是由三个类别的组成的,前景的Alpha值为1,背景的Alpha值为0,未知区域通常为待求解区域。给定RGB图像和Trimap图的情况下,传统抠图算法通常基于采样(Sampling)或传播(Propagation)来求解前景物体的Alpha,但其性能通常受制于传统图像特征的表达能力。随着深度卷积网络(CNN)的广泛应用,基于CNN框架的抠图算法日益成熟,抠图性能也有了质的飞跃。
二、抠图技术中的问题
在实际场景中,前景物体的纹理、形状、结构多种多样(如人体,动物,树木等),不同区域通常呈现出不同的Alpha模式,由于Trimap图并未包含任何语义信息,当Trimap图中的未知区域较大或者不能提供有效的先验知识时,模型无法正确分辨前后背景色,从而导致抠图结果时常含有不符合真实场景的错误或瑕疵。即使在同一个前景物体中,Alpha分布也根据不同区域区呈现不同的分布(如下图),给模型估计精准的Alpha带来了挑战。