《Robust High-Resolution Video Matting with Temporal Guidance》论文笔记

最新推荐文章于 2023-11-14 22:23:56 发布

m_buddy

最新推荐文章于 2023-11-14 22:23:56 发布

阅读量3.8k

点赞数 3

分类专栏：图像&视频分割文章标签：深度学习神经网络 matting

本文链接：https://blog.csdn.net/m_buddy/article/details/120298395

版权

主页：homepage
参考代码：RobustVideoMatting

1. 概述

导读：这篇文章提出了一种视频场景下的实时matting算法（1080Ti GPU下4K分辨率76 FPS，HD分辨率104 FPS），在算法中考虑了视频的时序特性，在解码器单元中增加了ConvGRU（输入的维度为 $[B * T * 3 * H * W]$ ），用于进行帧间信息传导，从而提升视频matting的稳定性（同时引入了视频时序相关损失也有此目的）。在此基础上融合语义分割与matting任务，使得网络进行多任务训练，从而兼容了当前语义分割数据的场景多样化带来的预测鲁棒和matting预测带来的精细化细节预测。这样的pipeline下就无需使用传统matting所需的trimap或是background matting中需要（近乎）不变的背景前提假设。在此基础上文章通过引入DGF（Deep Guided Filter）用于获取高分辨率的matting结果。

在之前的background matting算法中是逐帧进行预测的，因而并没有很好使用视频帧本身的时序特性，但是这样的时序特征正是可以对matting的结果带来较大的提升，主要体现为：

1）视频帧之间预测的结果是存在序列相关性的，因而可以根据这个相关性得到更加鲁棒地matting结果；
2）使用序列帧作为输入可以随着目标的移动学习到丰富的背景信息；
3）视频本身的时序特性为引入类LSTM提供了前提，从而可以更加有效提取特征用于matting预测；

除了上述提到的引入视频序列到pipeline中之外，文章还整个网络构建为一个语义分割和matting的多任务网络，从而可以在两个任务上进行优势互补。这样做的原因可以归纳为如下几点：

1）人像语义分割和matting任务在某种程度上是共通的，这就为两者联合起来提供基础；
2）现有的人像语义分割数据集拥有广泛的场景分布，通过联合训练的方式可以对matting训练过程中数据“假”（带来过拟合问题）问题带来改善；
3）人像语义分割的数据集从数量还是标注成本上都远好于matting数据集；

文章得到的效果可以参考下图所示：
在这里插入图片描述

2. 方法设计

2.1 整体pipeline

这篇文章提出的pipeline见下图所示：
在这里插入图片描述
可以从上图中看到文章提出的结构是典型的U型结构，主要的创新点集中在解码器阶段，在解码中添加了ConvGRU、原图下采样补充、DGF（Deep Guided Filter）等优化操作。

2.2 编码器单元

在输入编码器之前会对高分辨率的图片进行下采样得到低分辨率的输入图像，之后经过backbone为MobileNetV3-Large（最后一个stage用膨胀卷积替换下采样操作），然后接上多尺度聚合LR-ASPP，从而得到输出尺度为 $(\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{16})$ 。

2.3 解码器单元

在解码器单元中一个与传统解码不同的点是引入了ConvGRU对时序信息进行处理。上一级的特征输入之后会对其在channel维度上进行切分，一部分走传统的解码单元，一部分走ConvGRU。这样做的目的是兼容当前视频帧的信息和过往帧的信息。对于ConvGRU的计算过程可以描述为（初始的隐变量为0矩阵）：
$z_t=\sigma(w_{zx}*x_t+w_{zh}*h_{t-1}+b_z)$
$r_t=\sigma(w_{rx}*x_t+w_{rh}*h_{t-1}+b_r)$

最低0.47元/天解锁文章

m_buddy

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
《Robust High-Resolution Video Matting with Temporal Guidance》论文笔记

主页：homepage参考代码：RobustVideoMatting1. 概述导读：这篇文章提出了一种视频场景下的实时matting算法（1080Ti GPU下4K分辨率76 FPS，HD分辨率104 FPS），在算法中考虑了视频的时序特性，在解码器单元中增加了ConvGRU（输入的维度为[B∗T∗3∗H∗W][B*T*3*H*W][B∗T∗3∗H∗W]），用于进行帧间信息传导，从而提升视频matting的稳定性（同时引入了视频时序相关损失也有此目的）。在此基础上融合语义分割与matting任务，使
复制链接

扫一扫