Video-to-Video Synthesis（NeurIPS18）

最新推荐文章于 2024-06-09 11:49:46 发布

o0Helloworld0o

最新推荐文章于 2024-06-09 11:49:46 发布

阅读量3.4k

点赞数

分类专栏：读书笔记

本文链接：https://blog.csdn.net/o0Helloworld0o/article/details/103562470

版权

读书笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

image-to-image translation是一个被广泛研究的问题，而video-to-video synthesis则是它的升级版，受到的关注较少

如果不考虑temporal dynamics，直接使用image-to-image translation的方法会生成不连贯（incoherent）、低质量的视频

1 Introduction

据作者所知，之前还没有工作专门提出a general-purpose solution to video-to-video synthesis

本文将video-to-video synthesis定义为distribution matching problem

3 Video-to-Video Synthesis

定义source video frames为 $\mathbf{s}_1^T=\left \{ \mathbf{s}_1, \mathbf{s}_2, \cdots, \mathbf{s}_T \right \}$ ，corresponding real video frames（相当于ground-truth）为 $\mathbf{x}_1^T=\left \{ \mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_T \right \}$ ，生成的output video frames为 $\tilde{\mathbf{x}}_1^T=\left \{ \tilde{\mathbf{x}}_1, \tilde{\mathbf{x}}_2, \cdots, \tilde{\mathbf{x}}_T \right \}$

学习的目标为
$p\left ( \tilde{\mathbf{x}}_1^T\mid \mathbf{s}_1^T \right )=p\left ( \mathbf{x}_1^T\mid \mathbf{s}_1^T \right ) \qquad(1)$

定义生成器 $G$ 来表达 $p\left ( \tilde{\mathbf{x}}_1^T\mid \mathbf{s}_1^T \right )$ ， $\tilde{\mathbf{x}}_1^T=G(\mathbf{s}_1^T)$ ，以及判别器 $D$ ，则基于GAN的优化目标可以写作：
$\underset{D}{\max}\ \underset{G}{\min}\ E_{\left ( \mathbf{x}_1^T,\mathbf{s}_1^T \right )}\left [ \log D\left ( \mathbf{x}_1^T, \mathbf{s}_1^T \right ) \right ]+E_{\mathbf{s}_1^T}\left [ \log\left ( 1-D\left ( G\left ( \mathbf{s}_1^T \right ), \mathbf{s}_1^T \right ) \right ) \right ] \qquad(2)$
注意 $D$ 的输入有2个

Sequential generator

为了简化问题，作出Markov assumption，将条件概率 $p\left ( \tilde{\mathbf{x}}_1^T\mid \mathbf{s}_1^T \right )$ 分解为
$p\left ( \tilde{\mathbf{x}}_1^T\mid \mathbf{s}_1^T \right )=\prod_{t=1}^{T}p\left ( \tilde{\mathbf{x}}_t\mid \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right ) \qquad(3)$
上述式子的意思是，假设我们已经生成了前 $t - 1$ 帧 $\tilde{\mathbf{x}}_1^{t-1}$ ，当前需要生成第 $t$ 帧 $\tilde{\mathbf{x}}_t$ ，使用的信息有

current source frame $\mathbf{s}_t$
past $L$ source frames $\mathbf{s}_{t-L}^{t-1}$
past $L$ generated frames $\tilde{\mathbf{x}}_{t-L}^{t-1}$

其中1和2可以合并为 $\mathbf{s}_{t-L}^t$ ， $L$ 是一个超参数，取值小会造成训练不稳定，取值大会增大GPU消耗，因此在实验中设置 $L = 2$ 比较合适

将公式(3)中的条件概率 $p\left ( \tilde{\mathbf{x}}_t\mid \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )$ 表达为网络 $F$ ， $\tilde{\mathbf{x}}_t=F\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )$ ，于是就可以利用网络 $F$ 逐帧地生成视频

在视频中前后帧之间往往是高度相似的，因此考虑使用光流法，如果前后两帧之间的光流已知，那么可以通过warping前一帧来生成下一帧

具体来说，网络 $F$ 表达为
$F\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )=\left ( 1-\tilde{\mathbf{m}}_t \right )\odot \tilde{\mathbf{w}}_{t-1}\left ( \tilde{\mathbf{x}}_{t-1} \right )+\tilde{\mathbf{m}}_t\odot \tilde{\mathbf{h}}_t \qquad(4)$
第1项为光流法中warp前一帧的结果，第2项为生成的图像（hallucinates new pixels），二者使用mask $\tilde{\mathbf{m}}_t$ 做权衡
Q： $\tilde{\mathbf{w}}_{t-1}\left ( \tilde{\mathbf{x}}_{t-1} \right )$ 对应了warp操作，可以直接理解为矩阵乘法吗

网络 $F$ 的运算中又涉及到了3个网络 $W$ ， $H$ 和 $M$

$\tilde{\mathbf{x}}_{t-1}=W\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )$ 表示从帧 $\tilde{\mathbf{x}}_{t-1}$ 到 $\tilde{\mathbf{x}}_t$ ，使用optical flow prediction network $W$ 预测的光流
$\tilde{\mathbf{h}}_t=H\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )$ 表示由generator $H$ 生成的hallucinated image
$\tilde{\mathbf{m}}_t=M\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )$ 表示由mask prediction network $M$ 生成的occlusion mask，未被遮挡的部分可以使用光流解决，被遮挡的部分只能从 $\tilde{\mathbf{h}}_t$ 中获取

训练网络 $F$ 的时候，必须采用coarse-to-fine的方式

【关于光流】
光流定义为图像中的像素的运动速度，前后两帧之间的光流需要使用特定算法（Gunner Farneback’s algorithm）来计算，在本文中使用FlowNet2来计算

Conditional image discriminator

定义image级别的conditional 判别器 $D_I$ ，用于判别真实的pair $\left ( \mathbf{x}_t, \mathbf{s}_t \right )$ 和假的pair $\left ( \tilde{\mathbf{x}}_t, \mathbf{s}_t \right )$

Conditional video discriminator

定义video级别的conditional 判别器 $D_V$ ，给定光流作为条件，判别真假output frames

具体来说，对于连续的K个real images $\mathbf{x}_{t-K}^{t-1}$ ，其光流序列为 $\mathbf{w}_{t-K}^{t-2}$ ，那么 $D_V$ 负责判别真实的pair $\left ( \mathbf{x}_{t-K}^{t-1}, \mathbf{w}_{t-K}^{t-2} \right )$ 和假的pair $\left ( \tilde{\mathbf{x}}_{t-K}^{t-1}, \mathbf{w}_{t-K}^{t-2} \right )$

Foreground-background prior

当使用semantic segmentation masks作为source video时，可以将semantic segmentation分为foreground和background，利用这个信息可以生成更好的video

具体来说，将image hallucination network $H$ 拆分为foreground model $\tilde{\mathbf{h}}_{F,t}=H_F(\mathbf{s}_{t-L}^t)$ 和background model $\tilde{\mathbf{h}}_{B,t}=H_B(\tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t)$ ，则公式(4)修改如下
$F\left ( \tilde{\mathbf{x}}_{t-L}^{t-1}, \mathbf{s}_{t-L}^t \right )=\left ( 1-\tilde{\mathbf{m}}_t \right )\odot \tilde{\mathbf{w}}_{t-1}\left ( \tilde{\mathbf{x}}_{t-1} \right )+\tilde{\mathbf{m}}_t\odot \left ( (1-\mathbf{m}_{B,t})\odot \tilde{\mathbf{h}}_{F,t}+\mathbf{m}_{B,t}\odot \tilde{\mathbf{h}}_{B,t} \right ) \qquad(9)$
其中 $\mathbf{m}_{B,t}$ 是根据ground truth segmentation mask $\mathbf{s}_t$ 计算得到的

使用Foreground-background prior可以极大地提高生成video的视觉质量，付出的代价仅仅是video中会有一些轻微的闪烁

Multimodal synthesis

在特征空间上做一些随机处理，从而可以生成多段不同的视频

4 Experiments

总共进行了3种类型的视频生成

Semantic manipulation，见Figure 2
Sketch-to-video synthesis for face swapping，见Figure 5
Pose-to-video synthesis for human motion transfer，见Figure 6

【总结】
本文提出了Video-to-Video生成的方法，相当于将pix2pix扩展到video上，在训练时，需要使用逐帧对应的两个视频序列（semantic segmentation mask -> video，sketch -> video，pose -> video）进行训练，在测试时，以dance video为例，给定一段video，对其提取pose序列，然后可以生成一段逼真的video，相当于将视频中的人进行了替换

o0Helloworld0o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Video-to-Video Synthesis（NeurIPS18）

image-to-image translation是一个被广泛研究的问题，而video-to-video synthesis则是它的升级版，受到的关注较少如果不考虑temporal dynamics，直接使用image-to-image translation的方法会生成不连贯（incoherent）、低质量的视频1 Introduction据作者所知，之前还没有工作专门提出a gener...
复制链接

扫一扫

专栏目录