GANimation: Anatomically-aware Facial Animation from a Single Image（ECCV18）

最新推荐文章于 2024-03-24 09:40:40 发布

o0Helloworld0o

最新推荐文章于 2024-03-24 09:40:40 发布

阅读量443

点赞数

分类专栏：读书笔记

本文链接：https://blog.csdn.net/o0Helloworld0o/article/details/103483109

版权

读书笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

3 Problem Formulation

定义输入图像 $\mathbf{I}_{\mathbf{y}_r}\in\mathbb{R}^{H\times W\times3}$ ， $\mathbf{y}_r=\left ( y_1,\cdots,y_N \right )^T$ 表示 $N$ 个Action Units，每一个AU $y_n$ 是归一化到 $[0, 1]$ 的AU intensity

我们的目标是学习一个mapping $\mathcal{M}$ ，给定target AU $\mathbf{y}_g$ ，将输入图像 $\mathbf{I}_{\mathbf{y}_r}$ 变换为 $\mathbf{I}_{\mathbf{y}_g}$ ，即 $\mathcal{M}: \left ( \mathbf{I}_{\mathbf{y}_r},\mathbf{y}_g \right )\rightarrow\mathbf{I}_{\mathbf{y}_g}$

训练数据集包含 $M$ 个样本，每一个样本是一个triplet，记作 $\left \{ \mathbf{I}_{\mathbf{y}_r}^m, \mathbf{y}_r^m, \mathbf{y}_g^m \right \}_{m=1}^M$ ，由于我们不知道 $\mathbf{I}_{\mathbf{y}_g}^m$ ，因此是无监督学习（其实需要AU annotation，作者在代码中说通过OpenFace进行标注）

4 Our Approach

在这里插入图片描述
如Figure 2所示，整个框架主要包含2个网络

generator $G\left ( \mathbf{I}_{\mathbf{y}_r} | \mathbf{y}_g \right )$ ，给定target AU $\mathbf{y}_g$ ，对输入图像 $\mathbf{I}_{\mathbf{y}_r}$ 进行变换，注意Figure 2中 $G$ 被使用了2次，第1次是正向变换 $\left ( \mathbf{I}_{\mathbf{y}_r},\mathbf{y}_g \right )\rightarrow\mathbf{I}_{\mathbf{y}_g}$ ，第2次是反向变换 $\left ( \mathbf{I}_{\mathbf{y}_g},\mathbf{y}_r \right )\rightarrow\mathbf{\hat{I}}_{\mathbf{y}_r}$
critic $D\left ( \mathbf{I}_{\mathbf{y}_g} \right )$ ，评估生成图像 $\mathbf{I}_{\mathbf{y}_g}$ 的质量以及 $\mathbf{I}_{\mathbf{y}_g}$ 中包含的AU信息

4.1 Network Architecture

Generator

因为 $G$ 被使用了2次，使用原来的下标 $g, r$ 容易引起混淆，因此接下来统一使用下标 $o$ 和 $f$ ，分别表示 $o r i g i n$ 和 $f i n a l$

给定输入图像 $\mathbf{I}_{\mathbf{y}_o}\in\mathbb{R}^{H\times W\times3}$ ，以及 $N$ 维向量 $\mathbf{y}_f$ ，将 $\mathbf{y}_f$ 扩展为 $H\times W\times N$ ，与输入图像拼接为 $\left ( \mathbf{I}_{\mathbf{y}_o}, \mathbf{y}_f \right )\in\mathbb{R}^{H\times W\times(N+3)}$ ，然后送入 $G$ ， $G$ 最终输出 $\mathbf{I}_{\mathbf{y}_f}$

为了让生成的图像中，仅改变我们需要的region，剩下的region保持不变，所以引入attention mechanism，即使用mask
在这里插入图片描述
如Figure 3所示， $G$ 同时生成2个mask

color mask $C=G_C\left ( \mathbf{I}_{\mathbf{y}_o} | \mathbf{y}_f \right )\in\mathbb{R}^{H\times W\times3}$ （个人理解： $C$ 就是一幅候选生成图像，不要把它当作mask）
attention mask $A=G_A\left ( \mathbf{I}_{\mathbf{y}_o} | \mathbf{y}_f \right )\in\left \{ 0,\cdots,1 \right \}^{H\times W\times3}$ ，使用 $A$ 来选择原图 $\mathbf{I}_{\mathbf{y}_o}$ 和候选生成图像 $C$ 所占的比例，即
$\mathbf{I}_{\mathbf{y}_f}=(1-A)\cdot C+A\cdot\mathbf{I}_{\mathbf{y}_o} \qquad(1)$

Conditional Critic（Q：为什么叫做Conditional？）

critic $D(\mathbf{I})$ 的结构类似PatchGAN， $\mathbf{I}\rightarrow\mathbf{Y}_\mathbf{I}\in\mathbb{R}^{H/2^6\times W/2^6}$

此外，在critic $D$ 的顶部添加一个auxiliary regression head，用于预测图像 $\mathbf{I}$ 的AU $\hat{\mathbf{y}}=\left ( \hat{y}_1, \cdots, \hat{y}_N \right )^T$

4.2 Learning the Model

Image Adversarial Loss

WGAN将原版GAN中的JS散度替换为Earth Mover Distance
为了maintain a Lipschitz constraint，WGAN-GP增加了一项gradient penalty，computed as the norm of the gradients with respect to the critic input

critic loss $\mathcal{L}_I\left ( G, D_I, \mathbf{I}_{\mathbf{y}_o}, \mathbf{y}_f \right )$ 定义如下
$\mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left [ D_I\left ( G\left ( \mathbf{I}_{\mathbf{y}_o}|\mathbf{y}_f \right ) \right ) \right ] - \mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left [ D_I\left ( \mathbf{I}_{\mathbf{y}_o} \right ) \right ] + \lambda_{\text{gp}}\mathbb{E}_{\tilde{I}\sim\mathbb{P}_{\tilde{I}}}\left [ \left ( \left \| \nabla_{\tilde{I}}D_I\left ( \tilde{I} \right ) \right \|_2 -1\right )^2 \right ]$
其中 $\mathbb{P}_o$ 为输入图像 ${\mathbf{y}_o}$ 的分布， $\mathbb{P}_{\tilde{I}}$ 为the random interpolation distribution， $\lambda_{\text{gp}}$ 为penalty coefficient

Attention Loss

在训练过程中，我们不知道attention mask $A$ 和color mask $C$ 的ground-truth

attention mask很容易saturate to 1，因此对mask $A$ 添加 $L_2$ 正则化，同时为了保证 $A$ 的平滑性，对 $A$ 添加Total Variation Regularization

最终的Attention Loss包含2项，如下所示
$\lambda_\text{TV} \mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left [ \sum_{i,j}^{H,W}\left [ \left ( A_{i+1,j} - A_{i,j} \right )^2 + \left ( A_{i,j+1} - A_{i,j} \right )^2 \right ] \right ] + \mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left \| A \right \|_2 \qquad(2)$

Total Variation Regularization的直观解释是，对于元素 $A_{i,j}$ ，限制下方元素 $A_{i+1,j}$ ，以及右边元素 $A_{i,j+1}$

Conditional Expression Loss

$G$ 生成的图像需要包含target AU信息，因此 $D$ 顶端的auxiliary regression head产生了一项AU regression loss

使用fake image的AU regression loss来优化 $G$ （公式(3)第1项），使用real image的AU regression loss来优化 $D$ （公式(3)第2项）

loss $\mathcal{L}_\mathbf{y}\left ( G, D_\mathbf{y}, \mathbf{I}_{\mathbf{y}_o}, \mathbf{y}_o, \mathbf{y}_f \right )$ 定义如下
$\mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left \| D_\mathbf{y}\left ( G\left ( \mathbf{I}_{\mathbf{y}_o} | \mathbf{y}_f \right ) \right )-\mathbf{y}_f \right \|_2^2 + \mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left \| D_\mathbf{y}\left ( \mathbf{I}_{\mathbf{y}_o} \right )-\mathbf{y}_o \right \|_2^2 \qquad(3)$

Identity Loss

引入cycle consistency loss，用于保证输入图像 $\mathbf{I}_{\mathbf{y}_o}$ 与重构图像 $G\left ( G\left ( \mathbf{I}_{\mathbf{y}_o} | \mathbf{y}_f \right )| \mathbf{y}_o \right )$ maintain the same identity

使用 $l_1$ -norm的identity loss定义如下
$\mathcal{L}_\text{idt}\left ( G, \mathbf{I}_{\mathbf{y}_o}, \mathbf{y}_o, \mathbf{y}_f \right )=\mathbb{E}_{\mathbf{I}_{\mathbf{y}_o}\sim\mathbb{P}_o}\left \| G\left ( G\left ( \mathbf{I}_{\mathbf{y}_o} | \mathbf{y}_f \right )| \mathbf{y}_o \right )- \mathbf{I}_{\mathbf{y}_o} \right \|_1 \qquad(4)$

也可以将 $l_1$ -norm替换为更加高级的Perceptual loss，但实验结果并没有提升

Full Loss

$\begin{aligned} \mathcal{L}=&\mathcal{L}_\mathbf{I}\left ( G, D_\mathbf{I}, \mathbf{I}_{\mathbf{y}_r}, \mathbf{y}_g \right ) + \lambda_\mathbf{y}\mathcal{L}_\mathbf{y}\left ( G, D_\mathbf{y}, \mathbf{I}_{\mathbf{y}_r}, \mathbf{y}_r, \mathbf{y}_g \right ) \\&+ \lambda_A\left ( \mathcal{L}_A\left ( G, \mathbf{I}_{\mathbf{y}_g}, \mathbf{y}_r \right ) + \mathcal{L}_A\left ( G, \mathbf{I}_{\mathbf{y}_r}, \mathbf{y}_g \right ) \right ) + \lambda_\text{idt}\mathcal{L}_\text{idt}\left ( G, \mathbf{I}_{\mathbf{y}_r}, \mathbf{y}_r, \mathbf{y}_g \right ) \qquad(5) \end{aligned}$

minmax problem
$G^*=\arg\underset{G}{\min}\underset{D\in\mathcal{D}}{\max}\mathcal{L} \qquad (6)$
where $G^*$ draws samples from the data distribution. Additionally, we constrain our discriminator $D$ to lie in $\mathcal{D}$ , that represents the set of 1-Lipschitz functions.

5 Implementation Details

公式(5)的超参数设置： $\lambda_\text{gp}=10，\lambda_A=0.1，\lambda_\text{TV}=0.0001，\lambda_\mathbf{y}=4000，\lambda_\text{idt}=10$
注： $\lambda_\mathbf{y}$ 设置得比较大，否则无法生成target AU

6 Experimental Evaluation

在这里插入图片描述
Figure 4给出了9个AU，4个intensity的示例

6.2 Simultaneous Edition of Multiple AUs

$\alpha\mathbf{y}_g + (1-\alpha)\mathbf{y}_r$

6.3 Discrete Emotions Editing

与related work相比，GANimation主要有2点不同

能够生成连续的表情
使用attention mask

o0Helloworld0o

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GANimation: Anatomically-aware Facial Animation from a Single Image（ECCV18）

3 Problem Formulation定义输入图像Iyr∈RH×W×3\mathbf{I}_{\mathbf{y}_r}\in\mathbb{R}^{H\times W\times3}Iyr∈RH×W×3，yr=(y1,⋯ ,yN)T\mathbf{y}_r=\left ( y_1,\cdots,y_N \right )^Tyr=(y1,⋯,yN)T表示NNN个Action Uni...
复制链接

扫一扫