AVFR-GAN：音视觉的人脸驱动技术

最新推荐文章于 2024-05-21 23:16:53 发布

机器学习与AI生成创作

最新推荐文章于 2024-05-21 23:16:53 发布

阅读量521

点赞数

分类专栏：扩散模型与GAN生成对抗网络文章标签：算法计算机视觉人工智能机器学习深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247498124&idx=2&sn=940ce8a68bddc79059a915da2635bfa0&chksm=fe2a5b37c95dd2213258a3ef3e2c8c6643d4f9bab4b9ba8e845cfd7e1aabb569d06131285e37&scene=126&&sessionid=0

版权

扩散模型与GAN生成对抗网络专栏收录该内容

123 篇文章 124 订阅

订阅专栏

点击上方“摸鱼吧算法工程师”卡片，关注星标

获取有趣、好玩的前沿干货！

Audio-Visual Face Reenactment

https://arxiv.org/pdf/2210.02755.pdf

人脸驱动技术有很多有用的应用场景，比如：在录音棚中低成本为明星进行相关录制，在线教育也可以有类似的应用场景，新闻传媒还可以减少他们的通勤。此外，还可以通过多种方式简化视频通话，由于紧凑的基于关键点的表示，这可能可以减少带宽等等。

这项工作提出了一种使用音频和视觉流来生成逼真的说话人视频的驱动新方法。

通过使用可学习关键点生成的密集运动场从驱动视频中迁移头部运动来使源图像动画化。使用音频作为额外的输入来提高口型同步的质量，帮助网络关注口腔区域。使用附加的先验，利用人脸分割和人脸网格来改进重构人脸的结构。最后，引入一个精心设计的身份感知的生成器模块来提高视觉质量。生成器将源图像和扭曲运动特征作为输入，生成具有细粒度细节的高质量输出。

方法产生了最先进的结果，并很好地推广到看不见的面孔、语言和声音。使用多种指标综合评估，并在定性和定量上优于当前的技术。方法可用在几个应用场景中，包括启用低带宽视频通话。更多信息详见：http://cvit.iiit.ac.in/ research/projects/cvi -projects/avfr

-------------END-------------

往期阅读

图像卡通化生成（Image Cartoonization）：最新最全19篇汇总

最新最全100篇汇总！生成扩散模型Diffusion Models

最新CVPR 2022 论文推荐（1）

最新CVPR 2022 论文推荐（2）

最新CVPR 2022 论文推荐（3）

（1）GAN改进系列 | 最新ICCV2021生成对抗网络GAN论文梳理汇总

（2）最新ICCV 2021 | 图像转换生成对抗GAN汇总梳理

最新 ICCV 2021 | GAN隐私保护（33）医学图像（34）生成对抗GAN

最新 ICCV 2021 论文推荐

如果觉得有用，就点个“在看”吧

机器学习与AI生成创作

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AVFR-GAN：音视觉的人脸驱动技术

点击上方“摸鱼吧算法工程师”卡片，关注星标获取有趣、好玩的前沿干货！Audio-Visual Face Reenactmenthttps://arxiv.org/pdf/2210.02755.pdf人脸驱动技术有很多有用的应用场景，比如：在录音棚中低成本为明星进行相关录制，在线教育也可以有类似的应用场景，新闻传媒还可以减少他们的通勤。此外，还可以通过多种方式简化视频通话，由于紧凑的基于关键点的表...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。