Sound to Visual_ Hierarchical Cross-Modal Talking 笔记

最新推荐文章于 2023-12-11 20:00:32 发布

一只高空猿

最新推荐文章于 2023-12-11 20:00:32 发布

阅读量224

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/gky_1111/article/details/118424053

版权

本文探讨了一种使用GAN生成与音频同步的逼真人脸表情的技术，旨在帮助听力障碍者理解音频信息及在电影、游戏中的应用。通过MMCRNN和循环卷积网络结合ATNet与VGNet，实现音频到人脸关键点的转换并生成视频。损失函数和判别器设计确保了图像质量和准确性，其中，判别器包括帧级和序列级两部分，优化了脸部形状和图像质量。

摘要由CSDN通过智能技术生成

“Sound to Visual: Hierarchical Cross-Modal Talking Face Video Generation”

像是一篇讲GAN应用的文章。

任务描述：对于给定的一个音频，需要用GAN生成人脸，使人脸看起来好像在读音频。

研究价值：帮助听力障碍人士获取音频信息; 在电影或者游戏中，根据音频生成角色的面部动作。

数据集：(GRID、LRW、VoxCeleb、TCD)

评估指标：

用来判断图像质量的指标：（衡量重建图像和原图的相似性）

SSIM：结构相似性。使用较少，多数情况下使用PSNR
PSNR：峰值信噪比，PSNR越大表示图像越难被肉眼识别出误差。
用来判断正确性的指标：LMD(landmark distance)

任务挑战（现有研究存在的问题）：

1. 人对于视频中的像素抖动（视频卡顿、合成痕迹）敏感；
2. 人对于视频中图像与音频不匹配很敏感。
3.  视觉动态性（摄像机视角，头部动作等）。

本文解决方法：

生成阶段：MMCRNN(multi-modal conv-RNN-based)

判别器：使用循环卷积网络(LSTM为基础的结构)

网络结构：ATNet+VGNet，

ATNet使用的是条件-LSTM编码-解码器，用来将音频信号转换为低维人脸坐标。

VGNet使用的是循环神经网络，使用AT产生的低维坐标产生合成的人脸。

推断的过程如下：

第一步将：AT-Net通过音频序列(a1:T)和模板坐标(pp)预测生成低维人脸关键点的坐标( $\vec{p}_{1:T}$

最低0.47元/天解锁文章

一只高空猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录