论文阅读：3D Talking Face with Personalized Pose Dynamics

live_for_myself

已于 2022-04-05 17:01:43 修改

阅读量2.3k

点赞数

分类专栏：论文阅读文章标签：深度学习计算机视觉神经网络

于 2021-11-29 11:19:55 首次发布

本文链接：https://blog.csdn.net/landing_guy_/article/details/121605675

版权

论文阅读专栏收录该内容

39 篇文章 14 订阅

订阅专栏

这篇论文和facial的论文的作者是一样的，提到了一个可以通过语音得到很好的3d model的方法，为了给不同的人分配不同的头部姿态，作者给每个视频提供了对应的头部姿态和面部shapes

论文结构有两部分，一个是PoseGAN，一个是PGFace。PoseGan生成头部姿态序列（head pose sequence for the 3D head）， PGFace生成自然的脸部模型

主要贡献：

构建了特定于个人的头部运动数据集，也就是每个人都有单独的头部运动，那是不是模型一开始识别出是哪个人然后单独训练就可以了？
引入了新的loss function和初始poses

数据集

openface检测3D的头部角度，注意不是3DMM参数， 3DMM参数是那个弱监督重建的方法得到的。

方法

为了保证生成的头部姿态序列与输入音频的相关性，我们引入了条件GAN来确定头部姿态序列的输出属于特定字符，并引入了判别器来确定头部姿态序列的真实性。在这里，我们设置256帧作为单位序列，传统的姿态损失方法不能保证相邻序列之间的一致性和每个序列中头部姿态的连续性。针对这些问题，提出了一种嵌入方法和运动损失函数。

Head Pose Sequence Generation Network（pose gan）

生成器是一个enhanced CNN接到Unet，最初的头部姿态P(来自openface) 就是第一帧的头部角度，这里有推理中头部姿态的设定问题（During the inference stage, the rest pose of the same identity is adopted as p for the generation of the ﬁrst head pose sequence. Here, we use the mean pose to approximate the rest pose. The last pose of previous sequence is adopted as p for subsequent head pose sequence generation. The initial pose guarantees consistency between neighboring sequences.）

这里有L2和帧之间差的损失（师姐还是厉害啊）