“Sound to Visual: Hierarchical Cross-Modal Talking Face Video Generation”
像是一篇讲GAN应用的文章。
任务描述:对于给定的一个音频,需要用GAN生成人脸,使人脸看起来好像在读音频。
研究价值:帮助听力障碍人士获取音频信息; 在电影或者游戏中,根据音频生成角色的面部动作。
数据集:(GRID、LRW、VoxCeleb、TCD)
评估指标:
用来判断图像质量的指标:(衡量重建图像和原图的相似性)
- SSIM:结构相似性。使用较少,多数情况下使用PSNR
- PSNR:峰值信噪比,PSNR越大表示图像越难被肉眼识别出误差。
用来判断正确性的指标:LMD(landmark distance)
任务挑战(现有研究存在的问题):
1. 人对于视频中的像素抖动(视频卡顿、合成痕迹)敏感;
2. 人对于视频中图像与音频不匹配很敏感。
3. 视觉动态性(摄像机视角,头部动作等)。
本文解决方法:
生成阶段:MMCRNN(multi-modal conv-RNN-based)
判别器:使用循环卷积网络(LSTM为基础的结构)
网络结构:ATNet+VGNet,
ATNet使用的是条件-LSTM编码-解码器,用来将音频信号转换为低维人脸坐标。
VGNet使用的是循环神经网络,使用AT产生的低维坐标产生合成的人脸。
推断的过程如下:
第一步将:AT-Net通过音频序列(a1:T)和模板坐标(pp)预测生成低维人脸关键点的坐标( p ⃗ 1 : T \vec{p}_{1:T} p