Few-Shot Adversarial Learning of Realistic Neural Talking Head Models（ICCV19）

最新推荐文章于 2021-10-17 10:42:58 发布

o0Helloworld0o

最新推荐文章于 2021-10-17 10:42:58 发布

阅读量619

点赞数

分类专栏：读书笔记

本文链接：https://blog.csdn.net/o0Helloworld0o/article/details/104158271

版权

读书笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

3. Methods

在这里插入图片描述

3.1. Architecture and notation

数据集包含 $M$ 个video sequences，其中第 $i$ 个video记为 $\textbf{x}_i$ ，第 $t$ 帧记为 $\textbf{x}_i(t)$

对 $\textbf{x}_i(t)$ 提取landmark，将landmark连成线段，使用不同的颜色画在一幅白底图上，得到landmark image（如Figure 2左上角所示），记为 $\mathbf{y}_i(t)$

如Figure 2所示，总共有3个网络

embedder $E\left ( \mathbf{x}_i(s), \mathbf{y}_i(s); \phi \right )$ ，将video frame $\mathbf{x}_i(s)$ 和对应的 $\mathbf{y}_i(s)$ 映射为一个 $N$ 维向量 $\hat{\mathbf{e}}_i(s)$ ，这个 $\hat{\mathbf{e}}_i(s)$ 应该包含了video-specific information (such as the person’s identity)
generator $G\left ( \mathbf{y}_i(t), \hat{\mathbf{e}}_i; \psi, \mathbf{P} \right )$ ，利用landmark image $\mathbf{y}_i(t)$ 和video embedding $\hat{\mathbf{e}}_i$ ，生成一幅图像 $\hat{\mathbf{x}}_i(t)$ ，生成器的训练目标是最大化 $\hat{\mathbf{x}}_i(t)$ 与其ground truth之间的similarity，生成器的参数分为两类，一是person-generic parameters $\psi$ ，二是person-specific parameters $\hat{\psi}_i$
Discriminator $D\left ( \mathbf{x}_i(t), \mathbf{y}_i(t), i; \theta, \mathbf{W}, \mathbf{w}_0, b \right )$ ，可以进一步细分为ConvNet part $V\left ( \mathbf{x}_i(t), \mathbf{y}_i(t); \theta \right )$ 负责将input frame和landmark image映射为 $N$ 维向量，然后结合输入 $i$ 进一步映射为一个realism score $r$
Question：无法理解为什么判别器的输入需要一个 $i$

3.2. Meta-learning stage

simulating episodes of K-shot learning (K = 8 in our experiments)

随机选取第 $i$ 个视频 $\textbf{x}_i$ 中的第 $t$ 帧 $\textbf{x}_i(t)$ ，接着再从这个视频中额外抽取 $K$ 帧，也就是 $K$ 个index，记为 $s_1, s_2, \cdots, s_K$

首先按照公式(1)计算 $\hat{\textbf{e}}_i$
$\hat{\textbf{e}}_i=\frac{1}{K}\sum_{k=1}^{K}E\left ( \textbf{x}_i(s_k), \textbf{y}_i(s_k); \phi \right ) \qquad(1)$

$\hat{\textbf{e}}_i$ 配合 $\textbf{y}_i(t)$ ，送入生成器 $G$ 生成第 $t$ 帧图像
$\hat{\textbf{x}}_i(t)=G\left ( \textbf{y}_i(t), \hat{\textbf{e}}_i; \psi, \mathbf{P} \right ) \qquad(2)$

$E$ 和 $G$ 的参数通过最小化公式(3)得到
$\begin{aligned} \mathcal{L}&\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )=\mathcal{L}_{CNT}\left ( \phi, \psi, \mathbf{P}\right )+ \\ &\mathcal{L}_{ADV}\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )+\mathcal{L}_{MCH}\left ( \phi, \mathbf{W} \right ) \qquad(3) \end{aligned}$
其中 $\mathcal{L}_{CNT}$ 是ground truth image $\mathbf{x}_i(t)$ 与the reconstruction $\hat{\textbf{x}}_i(t)$ 之间的perceptual similarity measure； $\mathcal{L}_{ADV}$ 是adversarial loss；

3.3. Few-shot learning by fine-tuning

当meta-learning收敛后，需要对一个new person单独进行fine-tuning，这个new person只提供了少量图像，所以叫做few-shot learning

具体来说，我们有 $T$ 幅图像 $\textbf{x}(1), \textbf{x}(2), \cdots, \textbf{x}(T)$ ，以及对应的landmark图像 $\textbf{y}(1), \textbf{y}(2), \cdots, \textbf{y}(T)$ ，此处 $T$ 不需要与meta-learning中的 $K$ 相等

使用meta-learned embedder提取vector
$\hat{\textbf{e}}_{NEW}=\frac{1}{T}\sum_{t=1}^{T}E\left ( \textbf{x}(t), \textbf{y}(t); \phi \right ) \qquad(7)$
然后可以对new person生成新的图像，但由于存在identity gap，生成图像的质量无法满足要求，因此需要fine-tuning

fine-tuning包含以下几个成分

Generator中person-specific的参数 $\psi'$ 的初始化方式为

fine-tuning可以看作是在一段video上的简化版的meta-learning

4. Experiments

生成效果见原文，这是一篇ICCV oral，视频中展示的生成video具有比较高的fidelity

【总结】
本文解决的问题是few-shot条件下的talking head的生成问题，使用meta-learning着重解决不同阶段参数的初始化问题，网络结构上没有太多改进，采用的是最近流行的结构，最终能够实现基于lanmark驱动的人脸图像生成
本文不足是对于每一个new person，仍然需要进行fine-tuning，并且在最后的Conclusion也指出了landmark无法表达比较细微的特征（如gaze），使用别人的landmark存在一定偏差，或许需要进行landmark adaptation

o0Helloworld0o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Few-Shot Adversarial Learning of Realistic Neural Talking Head Models（ICCV19）

3.2. Meta-learning stagesimulating episodes of K-shot learning (K = 8 in our experiments)随机选取第iii个视频xi\textbf{x}_ixi中的第ttt帧xi(t)\textbf{x}_i(t)xi(t)，接着再从这个视频中额外抽取KKK帧，也就是KKK个index，记为s1,s2,⋯ ,sKs...
复制链接

扫一扫