论文阅读: [3d]Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose

live_for_myself

已于 2022-01-19 08:31:42 修改

阅读量1.5k

点赞数

分类专栏：论文阅读文章标签：论文阅读

于 2021-07-14 20:03:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/landing_guy_/article/details/118731775

版权

论文阅读专栏收录该内容

39 篇文章 14 订阅

订阅专栏

文章目录

- - contributions

contributions

Propose a neueal network model that can transfer an audio signal of source person into a talking face video of target person with head pose and lip synchronization
Memory-argmented GAN module can generate photo-realistic video frames for various face identities
After training a general mapping based on a publicly dataset, a new short video can be used to fine-tune the mapping so it can fit any person

live_for_myself

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

live_for_myself CSDN认证博客专家 CSDN认证企业博客

码龄6年

151: 原创

4万+: 周排名

139万+: 总排名

28万+: 访问

: 等级

2558: 积分

407: 粉丝

286: 获赞

111: 评论

1467: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读：Synthesizing Obama: Learning Lip Sync from Audio
1是你啊: 写的很棒，最关键的点讲得很清楚
理解傅里叶（一）
橙意满满的西瓜大侠: 太厉害了，解决了我的难题
Action Unit到底是什么？
锦鲤程序猿: 作者想问一下这些视频处理成图片后，还要怎么处理才能用作训练数据集呢
理解FFT, STFT, 加窗的含义
zyjnewcomer: 我们能够知道加上窗后中心频率衰减了多少, 第二高的比例是多少, 相当于从不可控到可控了这句话是什么意思呢？在我看来加窗后原来突出的特征频率不突出了，这样有点得不偿失呀？
论文阅读：HeadGAN: One-shot Neural Head Synthesis and Editing
yangguang1374: 你好，我想问一下相机参数R_7对应的代码在哪，我在代码里找到的的相机参数是一个缩放系数、旋转矩阵和转移矩阵

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

live_for_myself 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。