Sound to Visual_ Hierarchical Cross-Modal Talking 笔记

“Sound to Visual: Hierarchical Cross-Modal Talking Face Video Generation”

像是一篇讲GAN应用的文章。

任务描述:对于给定的一个音频,需要用GAN生成人脸,使人脸看起来好像在读音频。

研究价值:帮助听力障碍人士获取音频信息; 在电影或者游戏中,根据音频生成角色的面部动作。

数据集:(GRID、LRW、VoxCeleb、TCD)

评估指标

用来判断图像质量的指标:(衡量重建图像和原图的相似性)

  • SSIM:结构相似性。使用较少,多数情况下使用PSNR
  • PSNR:峰值信噪比,PSNR越大表示图像越难被肉眼识别出误差。
    用来判断正确性的指标:LMD(landmark distance)

任务挑战(现有研究存在的问题):

1. 人对于视频中的像素抖动(视频卡顿、合成痕迹)敏感;
2. 人对于视频中图像与音频不匹配很敏感。
3.  视觉动态性(摄像机视角,头部动作等)。
本文解决方法

生成阶段:MMCRNN(multi-modal conv-RNN-based)

判别器:使用循环卷积网络(LSTM为基础的结构)

网络结构:ATNet+VGNet,

ATNet使用的是条件-LSTM编码-解码器,用来将音频信号转换为低维人脸坐标。

VGNet使用的是循环神经网络,使用AT产生的低维坐标产生合成的人脸。

推断的过程如下:

第一步将:AT-Net通过音频序列(a1:T)和模板坐标(pp)预测生成低维人脸关键点的坐标( p ⃗ 1 : T \vec{p}_{1:T} p

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值