论文总结
文章平均质量分 62
the animal
这个作者很懒,什么都没留下…
展开
-
EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation
作者使用wav2vec 2.0来提取音频特征。对于情感分离编码器,引入了两个不同的音频特征提取器,并分别用于为内容和情感提取两个单独的潜在空间,用于解耦情感和内容。在这个解码器中,通过使用 Transformer 模块进行解码,该解码器接收多种不同类型的特征作为输入,然后输出 52 个情感增强的混合形状系数,以表示最终的面部表情。3.由于3D情感说话人脸的数据较少,我们借助面部混合形状的监督,从2D情感数据中重建出可信的3D人脸,并提供了一个大规模的3D情感说话人脸数据集(3D-ETF)来训练网络。原创 2023-10-13 12:56:26 · 1136 阅读 · 0 评论 -
论文总结:3D Talking Face With Personalized Pose Dynamics
在U-net 之前设计了一个增强型CNN编码器,用于构建生成器G,并将初始头部姿势p嵌入输入层和U-net输出层,以约束生成的头部姿势序列的初始位置和方向。在生成阶段,首先使用深度语音对输入音频进行编码,然后将提取的特征馈送到两个之前提出的模块中:头部姿势生成对抗网络(PoseGAN)模块和姿势引导面部(PGFace)生成模块。论文解决的问题:大多数现有的3D人脸生成方法只能生成静态头部姿势的3D面部,只有少数几篇文章关注头部姿势的生成,但这些文章也忽略了个体属性。人脸形状参数由PGFace生成。原创 2023-10-07 11:46:42 · 704 阅读 · 0 评论 -
论文总结:Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert
在训练的时候,会选择一个T时刻的0.2s的音频送入基于CNN的audio ecoder中。与之对应的T时刻的图像mask嘴唇部分,再与随机选择的身体参考图像合拼在一起,作为基于CNN的video encoder的输入。由生成器生成的图像会与真实的图像之间取L1 Loss,将两者放入鉴别器取一个对比损失。将生成的图像插入替换原来的视频帧,送入已经冻结的唇读专家中,这里会将visual context features与经过audio ecoder后的结果,做一个loss。在这篇论文中,作者主要注重嘴唇同步。原创 2023-10-03 17:56:50 · 168 阅读 · 0 评论 -
论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks
首先使用Dlib从身份参考的图像中,提取特征点,经过由MLP组成的Elm。输入的音频经过MFCC编码,后分为两路。其中一路将编码后的结果送入Ea,另外一路将结果送入MSEF(Memory-Sharing Emotional Feature Extractor)。y^为情感分类器预测的情感分类,y为真实的情感标签。Audio2Lm输出为每一帧的面部标志。这里生成的面部标志会与真实的面部标志之间使用loss函数,使生成的标志更加真实。随后将生成的标志与原始图片在通道的维度上拼接,最后放入AATU生成视频帧。原创 2023-10-03 16:20:39 · 104 阅读 · 0 评论