虚拟数字人技术
文章平均质量分 69
从AIGC生产一线算法工程师出发,对虚拟数字人技术进行跟进和分析,包括wav2lip系列的唇形驱动以及唇形面部驱动技术。
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
geneface++:Generalized and stable real-time audio-driven 3d talking face generation
然而,仅改善预测landmark的质量并不足以实现良好的视频质量,这需要基于NERF的运动到视频模块准确渲染与指定面部运动相对应的人像。使用LRS3-TED的一个子集,提供了190小时的高质量的音频-动作对,为了学习nerf的任务特定渲染器,包括5个视频,平均长度为6000帧,帧率是25fps,在数据预处理中,从音频轨道中提取了hubert特征和音调轮廓,从视频帧中提取了头部姿势和3d关键点,为了训练nerf,目标人物的视频被裁剪为512x512,每帧获取用于分割头部和躯干部分并提取干净背景。原创 2024-04-25 09:52:49 · 912 阅读 · 1 评论 -
wav2lip:Accurately Lip-syncing Videos In The Wild
随机帧是和音频不同步,是根据音频和mask的图形生成真实的唇形,参考帧的意义我自己感觉是减少模型复杂度,但是也有解释,在前向推理时,其实输入的一定是和音频不同步的视频帧,此时不仅对唇形区域做mask,也会把原始的图像拼接起来concat,这样其实训练和推理时就保持一致了。上面两部分主要考虑的是唇形生成和同步的监督,但是还要考虑唇形生成质量问题,为了提升质量,在生成器后面加了一个gan结构,主要是判别器。音频每块是16,一个视频对应的音频,偏移量是80/fps,fps=25,每次偏移大概3。原创 2023-04-16 16:29:20 · 4434 阅读 · 0 评论 -
[数字人]唇形驱动,头部动作生成算法总结
1.VASA-12.AniPortrait3.SadTalker原创 2024-04-22 11:39:08 · 253 阅读 · 0 评论 -
[数字人]唇形驱动,不生成头部动作算法总结
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。数字人可分为3D和2D,3D比较出名的是虚幻引擎的meta human,背后的技术涉及blendshape,类似sadtalker,wav2lip属于2d,根据输入的不同,进一步分为视频+音频,wav2lip和geneface,只生成新的口型,另一类是输入是图片+音频,sadtalker属于这一类,不仅生成新的口型,还生成头部运动,复杂度较高。原创 2024-04-22 11:39:10 · 811 阅读 · 0 评论