阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
文章提出 Wav2Lip,基于音频合成对应唇形视频。文章提出实际视频中的不同姿态、尺度、光照的变化,而生成的视频也需要无缝融合到目标视频中。而一些模型可以在静态图像上表现比较好,但是在视频上的效果就不行。首先提出使用一个唇形同步判别器解决唇形不同步的问题(使用基于 SyncNet 的强大的唇同步判别器,强迫生成器生成精确、实际的唇部移动);另外提出一个新的评估标准精确测量非约束性视频下的唇形同步性能(使用 Syncnet 对视频中的唇部同步进行评估)。
原创
2022-10-24 23:10:57 ·
1498 阅读 ·
1 评论