两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 日在韩国首尔举办。旷视研究院共有 11 篇接收论文,涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别、AutoML、度量学习、强化学习、元学习等众多领域。在此之前,旷视研究院将每周介绍一篇 ICCV 2019 接收论文,助力计算机视觉技术的交流与落地。
本文是第 6 篇,由于发现了抠图可分为 trimap adaptation 和 alpha estimation 两个任务,并受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (Adaptation and Matting) ,同时克服了诸多局限性。该方法在最为通用的数据集 Adobe Composition-1k 上刷新了当前最优成绩,并在 alphamatting.com 上取得第一。
论文名称:Disentangled Image Matting
论文地址:https://arxiv.org/abs/1909.04686
目录
导语
简介
方法
-
Trimap Adaptation
Network Overview
Multi-task Loss
实验
-
Results on alphamatting.com
Results on Composition-1k
讨论
-
Accuracy of Trimap Adaptation
Real World Image Matting
结论
附录
-
More Qualitative Results
参考文献
往期解读
导语
抠图旨在精确地评估图像和视频中前景物体的不透明度。它是一系列应用的预处理,比如电影制片和数字图像编辑。
一般来讲,输入图像 I 被建模为前景和背景色彩的线性结合,如下所示:
其中,F_i、B_i、α_i 分别是指像素 i 前景色彩和背景色彩以及前景蒙版(alpha matte)估值。给定一张图像 I,抠图旨在同时解决 F、B、α。
由等式 1 可知,这一问题是高度不适定的(highly ill-posed)。对于一张 RGB 图像,每个像素需要 7 个变量来共同界定,却只有 3 个已知变量。
对于大多数现有的抠图算法,约束解空间的基本输入是三元图(trimap),一个指示不透明度和未知区域的粗糙的分割图。
三元图由使用者涂鸦交互生成,或者由二值图像分割结果自动生成。无论何种方式,输入的三元图通常是粗糙的,即未知区域(图 1b 中的灰色区域)包含真实的半透明像素以及大量的不透明像素。这是因为通过人工标注来提供精确的三元图极其繁琐,并且难以使用运行在低分辨率图像的图像分割方法来实现。
图 1:(a) 输入图像, (b) 输入三元图,(c) 本文抠图结果, (d) trimap adaptation 相应结果
不幸的是,先前的抠图方法经常忽视输入三元图的不精确性,并尝试直接估值一个好的前景蒙版。
旷视研究院认为,在这一过程中,一个分类问题没有得到充