Neural Head Reenactment with Latent Pose Descriptors

这就是算法

已于 2022-04-23 21:24:44 修改

阅读量518

点赞数

分类专栏：深度学习之人脸重演文章标签：机器学习深度学习计算机视觉 python

于 2021-04-09 10:50:47 首次发布

本文链接：https://blog.csdn.net/qq_36321330/article/details/115343345

版权

深度学习之人脸重演专栏收录该内容

1 篇文章 0 订阅

订阅专栏

original paper
source code
在这里插入图片描述

3. Method

本文是对《Few-shot adversarial learning of realistic neural talking head models》(编号[42])论文的改进。增加了预测segmentation的功能，并且本文的模型根据潜在的姿势向量（latent pose vectors）来进行reenactment,而不是关键点。
在这里插入图片描述
3.1 Training pipeline
数据集：VoxCeleb2 dataset (处理过后使用的尺寸是 $256 \times 256$ )
与论文[42]一样，采用元学习+微调两阶段的方式进行训练。

元学习的过程
给定一个视频序列，我们获取 $K + 1$ 个随机帧 $I_{1}, \ldots,I_{K+1}$ 以及 $K + 1$ 个前景分割图 $S_{K+1}$ （根据现成的语义分割网络预先计算出来的）。

前 $K$ 个图像帧送入identity encoder（high-capacity 卷积网络 $F$ ）,与[42]中不同，它不是以关键点作为输入。对于每个图像 $I_{k}$ ，identity encoder输出 $d_{i}$ 维的向量 $x_{i}=F(I_{k})$ ，我们把 $x_{i}$ 称为 $I_{k}$ 的identity embedding。identity embedding包含一些人的pose-independent信息。 $K$ 个图像帧通过网络 $F$ 得到 $x_{1}, \ldots,x_{K}$ ，再通过取均值的方式得到单一的身份向量 $\bar{x}$ （identity vector）。

剩下的图像帧 $I_{K+1}$ 首先进行随机姿势增强变换操作（pose augmentation transformation:blur、sharpening、contrast change、JPEG compression等， $A$ 对于pose-identity disentanglement非常重要，它可以使人的姿势保持完整，但是可能会改变他的identity） $A$ 。将变换之后的 $A(I_{K+1})$ 通过网络 $G$ （pose encoder：much lower capacity）得到 $d_{p}$ 维的pose embedding向量 $y_{K+1}=G(A(I_{K+1}))$ ，把G当成一个person-agnostic姿势表示。

《 Arbitrary style transfer in realtime with adaptive instance normalization》[16]

pose embeddings和identity embeddings送入generator 网络，generator尝试尽可能准确的重建图像帧 $I_{K+1}$ 。与[42]一样，使用栅格化的关键点（火柴人图像）将姿势传递到生成器网络，借助[16]的AdaIN机制，将pose embeddings和identity embeddings传递到生成器网络。具体来说，上采样生成器输入一个大小为 $512 \times 4 \times 4$ 的可学习的tensor,输出大小为 $\times 256 \times 256$ 的 $I^{G}(\bar{x},y_{K+1})$ 和大小为 $\times 256 \times 256$ 的 $S^{G}(\bar{x},y_{K+1})$ 。我们想让 $I^{G}(\bar{x},y_{K+1}) \odot S^{G}(\bar{x},y_{K+1})$ 和 $S^{G}(\bar{x},y_{K+1})$ 去匹配图像帧 $I_{K+1}$ 的foreground部分( $I_{K+1} \odot S_{K+1}$ )和segmentation mask $S_{K+1}$ 。损失函数使用[42]中的内容损失以及分割中常用的dice coefficient 损失。此外， $I^{G} \odot S^{G}$ 和 $I^{K + 1} \odot S^{K + 1}$ 经过投影鉴别器（与[42]的区别是这里不再提供栅格化的关键点），以计算使图像逼真的对抗损失、 the discriminator feature matching loss和embedding match term。

每次卷积之后插入AdaIN模块，AdaIN系数是通过将concat(pose embeddings,identity embeddings)得到的 $d_{i}+d_{p}$ 向量通过MLP得到的。

Reenactment and fine-tuning
一旦对模型进行了元学习，就可以将其使用去拟合在元学习过程中未发现的新identities。因此，给定一个新人的一个或多个图像，通过identity encoder得到identity 向量 $\bar{x}$ 。然后，通过插入从相同或不同人的图像中提取的姿势向量 $y$ ，我们可以通过计算图像 $I^{G}(\bar{x},y)$ 及其foreground mask $S^{G}(\bar{x},y)$ 来重现人。

为了进一步减少identity差距，本文遵循[42]并用与[42]中相同的一组损失加上dice coefficient损失对模型（即MLP，生成器和鉴别器的权重）进行微调。将提供的一组新人物图像及其分割图视为ground truth。估计的identity embedding $\bar{x}$ 在微调过程中保持固定（将其包括到optimization中并没有导致我们的实验出现任何差异，因为embedding $\bar{x}$ 中的参数数量远小于MLP和生成器中的参数数量。pose embedding网络G在微调期间也保持固定。

Disentanglement of pose and identity
（1）pose提取网络capacity不足
（2）使用pose augmentation
（3）background segmented out
使用如上三个方法，模型会解开pose以及identity之间的disentanglement

Implementation details
pose encoder使用MobileNetV2，identity encoder使用ResNeXt-50（32×4d）， $d_{p}$ 和 $d_{i}$ 分别是256和512.