点击上方“摸鱼吧算法工程师”卡片,关注星标
获取有趣、好玩的前沿干货!
Audio-Visual Face Reenactment
https://arxiv.org/pdf/2210.02755.pdf
人脸驱动技术有很多有用的应用场景,比如:在录音棚中低成本为明星进行相关录制,在线教育也可以有类似的应用场景,新闻传媒还可以减少他们的通勤。此外,还可以通过多种方式简化视频通话,由于紧凑的基于关键点的表示,这可能可以减少带宽等等。
这项工作提出了一种使用音频和视觉流来生成逼真的说话人视频的驱动新方法。
通过使用可学习关键点生成的密集运动场从驱动视频中迁移头部运动来使源图像动画化。使用音频作为额外的输入来提高口型同步的质量,帮助网络关注口腔区域。使用附加的先验,利用人脸分割和人脸网格来改进重构人脸的结构。最后,引入一个精心设计的身份感知的生成器模块来提高视觉质量。生成器将源图像和扭曲运动特征作为输入,生成具有细粒度细节的高质量输出。
方法产生了最先进的结果,并很好地推广到看不见的面孔、语言和声音。使用多种指标综合评估,并在定性和定量上优于当前的技术。方法可用在几个应用场景中,包括启用低带宽视频通话。更多信息详见:http://cvit.iiit.ac.in/ research/projects/cvi -projects/avfr
-------------END-------------
往期阅读
图像卡通化生成(Image Cartoonization):最新最全19篇汇总
最新最全100篇汇总!生成扩散模型Diffusion Models
(1)GAN改进系列 | 最新ICCV2021生成对抗网络GAN论文梳理汇总
(2)最新ICCV 2021 | 图像转换生成对抗GAN汇总梳理
最新 ICCV 2021 | GAN隐私保护(33)医学图像(34)生成对抗GAN
如果觉得有用,就点个“在看”吧