文章作者为 Google Research 的软件工程师 Sergio Orts Escolano 和 Jana Ehman,文章发表于 2022 年 1 月 24 日。
Portrait Matting 网络
抠图是提取精确的 alpha 遮罩的过程,抠图假设图像是前景和背景图像的合成,因此每个像素的强度是前景和背景的线性组合。Portrait Matting 设计思路:训练一个由一系列编码器-解码器块组成的全卷积神经网络,从输入图像和初始粗糙 alpha 遮罩(可使用低分辨率人物分割器生成)中预测出高质量的 alpha 遮罩。Portrait Matting 模型先使用 MobileNetV3 主干网络和浅层解码器预测精细的低分辨率 alpha 遮罩,然后再使用浅编码器-解码器和一系列残差块来处理高分辨率输入图像和上一步精炼得到的 alpha 遮罩,进一步细化最初估计的 alpha 遮罩。浅编码器-解码器比之前的 MobileNetV3 主干网络更多地依赖较低级别的特征,专注于高分辨率结构特征,用以预测每个像素的最终透明度值。通过这种方式,模型能够细化初始前景 alpha 遮罩,准确提取非常精细的细节。
数据集
使用图像编辑工具或绿屏手动注释每个像素的 alpha 遮罩,过程繁琐,并不适合于生成大型数据集。这种方式通常会产生不准确的 alpha 遮罩和被污染的前景图像(如被来自背景的反射光或“绿色溢出”)。此外,这并不能确保主体上的照明与新背景环境中的照明保持一致。
考虑到使用 alpha 遮罩抠图时,背光太强往往会导致细节处理不好,Portrait Matting 使用自定义体积捕获系统(Light Stage) 生成的高质量数据集进行训练。Light Stage 是谷歌在 2019 年提出的一个系统,由一个球形笼子组成,装有 331 个可编程 LED 灯和大约 100 个用于捕获体积视频的摄像机。相比于一般的数据集,这种方法可以让人物主体的光照情况与背景相匹配,由此呈现出更为逼真的效果。而且这种方法还能满足人像被放置在不同场景中时,光线变化的需求。此外,还使用来自野外图像的伪地面真实 alpha 遮罩(pseudo–ground truth alpha mattes) 来监督模型的训练,以提高模型的泛化能力。最后,使用比率抠图(ratio matting)技术获取准确的alpha 遮罩,即捕获一个干净的背景照明板,同时记录对象在照明背景下的剪影。用剪影图像除以干净的背景照明板,计算得到真实的 alpha 遮罩。如下图所示。
从 Light Stage 的所有相机视点计算的 alpha 遮罩
【参考】