Real-Time High-Resolution Background Matting论文阅读笔记

菠萝酸奶天下第一

已于 2024-06-17 03:49:38 修改

阅读量776

点赞数 14

分类专栏：论文笔记文章标签：深度学习神经网络

于 2023-06-30 17:15:37 首次发布

本文链接：https://blog.csdn.net/Bupt__/article/details/131480776

版权

Real-Time High-Resolution Background Matting阅读笔记

Abstract

我们介绍了一种，实时的、高分辨的能够操作4K分辨30帧、HD分辨60帧的背景替代技术。我们技术基于Background matting。主要的挑战是计算高质量的alpha matte{% referto ‘[1]’, ‘ $\alpha$ 通道，用于描述图像中每个像素的透明度信息，用来将图像与背景分离开，创建一个平滑的边界。通过使用一个额外的带有灰度值的图像来表示透明度，较暗的像素表示较低的透明度。’ %}和前景层、保留部分头发细节。为了达到这个目标，我们采用了两层神经网络：基本的网络负责计算低分辩的结果，另一个网络负责对前者的细化。

Introduction

背景替代技术呗广泛用于视频相关的工具如Zoom. Google Meet 和 Microsoft Teams。
除了娱乐价值，背景替代技术还能提高隐私，尤其是在视频中用户不想展示他的位置和环境给其他人的情况。这类视频相关的应用最大的挑战就是用户并不能如电影特效制作那般传统地能够有绿布或者其他物理媒介用来帮助背景替代的东西。

尽管很多工具提供背景替代的功能，但他们在边界上仍然有人工痕迹，特别是在一些有较好细节的头发、眼镜的地方。
相反的，传统的图片替代方法如下述论文[6, 16, 17, 30, 9, 2, 7]{% referto ‘[2]’, ‘一些图片替代的方法，可以阅读。’ %}等提供足够高质量的结果，但并非实时和高分辨，并且需要手工输入。在这篇文章中，我们将首次介绍一种全自动的，实时的，高分辨的替代技术，能够在30帧4K分辨、60帧HD分辨下工作。我们的方法依赖于捕获一个额外的背景图去计算 $\alpha$ 通道和前景层，被称为背景替代的技术。

设计一个能达到实时、高分辨的人的视频的神经网络是巨大挑战，尤其是当头发部分的细微粒度细节重要时。此外，先前的最高基数的办法也被局限在8帧 $512\times512$ 分辨。在如此高的分辨下训练一个深度网络是十分缓慢和占据内存的。它还需要大量高质量图像及其 $\alpha$ 通道去生成。公开的可用的数据集也十分稀少。

由于收集人工校准过的大量数据集十分困难，我们计划用一系列不同特征的数据集训练我们的神经网络。为此，我们引入了具有高分辨率 Alpha Matte 和前景层的 Video Matte240K 和 PhotoMatte13K/85，这些图像使用色度键技术{% referto ‘[3]’, ‘未学习的技术。’ %}提取而来。我们首先在这些更大的带有人体姿势划分的 $\alpha$ 通道数据集上训练神经网络学习鲁棒先验{% referto ‘[4]’, ‘鲁棒先验指对图像或图像中的某些属性进行建模和预先假设，通过引入鲁棒先验，可以在图像处理任务中提供额外的信息和约束，从而改善算法的性能和鲁棒性。’ %}。然后再在公开可用的人工校验过的数据集上训练学习细微粒度的细节。

为了设计能够实时操纵高分辨图像的神经网络，我们观察到图像在相对少的地方需要细微粒度的细化。因此，我们介入基本的低分辩下能够预测 $\alpha$ 通道和前景层的网络连带一个能分辨哪些部分需要高分辨细化的错误预测图。

Related Work

背景替代能够被分割或抠图。尽管二分割快而高效，其结果包含明显的人工痕迹。 $\alpha$ 通道能够产生视觉上令人满意的合成效果，但通常需要手动注释或已知背景图像。

Our Approach

给定一个图像 $I$ 和捕获的背景 $B$ , 我们可以预测 $\alpha$ 通道和前景F，通过 $I'=\alpha F+(1-\alpha)B'$
其中 $B^{'}$ 是新的背景。我们采用 $F^R=F-I$
而非直接解决前景。然后通过将 $F^R$ 添加到 $I$ , $F$ 用 $F=max(min(F^R+I, 1), 0)$
固定。
我们发现这个公式提升了学习过程，并且允许我们能够将低分辩的残留前景应用到高分辨输出图像，通过上采样{% referto ‘[5]’, ‘上采样，将图像分辨率增加或放大的过程。通过插值算法可以在已有的像素之间插入新的像素，从而增加图像的细节和清晰度。常见的上采样方法包括最近邻插值、双线性插值和卷积插值等。’ %}将低分辨率的前景残差应用到高分辨率的输入图像上，从而帮助了我们后面描述的架构。

正如图四所展示的，人类抠图通常非常稀疏，大部分的像素区域要么属于背景($ \alpha=0 $) 要么属于前景 ($ \alpha=1$)并且只有一小部分区域包含（需要）细化细节，例如在头发、眼镜和人的轮廓周围。因此，我们引入两个神经网络而非单一一个处理高分辨图像。一个操作低分辩另一个只操作在原分辨上选择的部分，基于对先前神经网络的预测。

整体结构包含一个基本的神经网络 $G_{base}$ 和一个细化神经网络 $G_{refine}$ 给定一个原始的图像 $I$ 和一个捕获的背景 $B$ ，我们先按照因子 $c$ 进行下采样得到 $I_c$ 和 $B_c$ 。基本的神经网络 $G_{base}$