EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions 译文
链接
Paper:https://arxiv.org/pdf/2402.17485.pdf
Github:https://github.com/HumanAIGC/EMO
Demo:https://humanaigc.github.io/emo
图1:我们提出了EMO,一种表达性音频驱动的人像视频生成框架。输入单个参考图像和语音音频,例如说话和唱歌,我们的方法可以生成具有表达性面部表情和各种头部姿势的语音化身视频,同时,我们可以根据输入音频的长度生成任何持续时间的视频。
摘要:在这项工作中,我们通过关注音频提示和面部动作之间的动态和微妙关系,来应对增强谈话头部视频生成的真实性和表现力的挑战。我们发现了传统技术的局限性,这些技术往往无法捕捉到人类表情的全方位和个人面部风格的独特性。为了解决这些问题,我们提出了EMO,这是一种利用直接音频到视频合成方法的新框架,绕过了对中间3D模型或面部陆地标记的需要。我们的方法确保了整个视频的无缝帧过渡和一致的身份保存,从而产生高度表达和逼真的动画。实验结果表明,EMO不仅可以制作令人信服的演讲视频,还可以制作各种风格的唱歌视频,在表现力和真实感方面明显优于现有的最新方法
关键词:扩散模型、视频生成、Talking Head
1. 介绍
近年来,图像生成领域取得了显著的进步,这在很大程度上归功于扩散模型的出现和成功[4,8,16,20,25]。这些模型以其产生高质量图像的能力而闻名,这要归功于它们在大规模图像数据集上的广泛训练和渐进生成方法。这种创新的方法可以创建具有无与伦比的细节和现实主义的图像,在生成模型领域设定新的基准。扩散模型的应用并不仅仅局限于静止图像。对视频生成的蓬勃发展的兴趣导致了这些模型在制作动态和引人注目的视觉叙事方面的潜力的探索[6,9]。这些开创性的努力强调了扩散模型在视频生成领域的巨大潜力。
除了一般的视频合成,以人为中心的视频的生成一直是研究的焦点,比如说话的头。说话头的目标是从用户提供的音频片段中生成面部表情。制作这些表情需要捕捉人类面部运动的微妙和多样性,这对视频合成提出了重大挑战。传统的方法通常对最终的视频输出施加约束,以简化这一任务。例如,一些方法使用3D模型来限制面部关键点,而另一些方法则从基础视频中提取头部运动序列来指导整体运动。虽然这些限制降低了视频生成的复杂性,但它们也往往限制了生成的面部表情的丰富性和自然性。
在本文中,我们的目标是建立一个创新的说话头部框架,旨在捕捉广泛的现实面部表情,包括细微的微表情,并促进自然的头部运动,从而使生成的头部视频具有无与伦比的表现力。为了实现这一目标,我们提出了一种利用扩散模型的生成能力的方法,能够直接从给定的图像和音频剪辑中合成角色头部视频。这种方法消除了中间表示或复杂预处理的需要,简化了说话头视频的创建,呈现出高度的视觉和情感保真度,与音频输入中的细微差别密切相关。音频信号富含与面部表情相关的信息,理论上使模型能够生成各种表情面部动作。然而,将音频与扩散模型集成并不是一项简单的任务,因为音频和面部表情之间的映射存在固有的模糊性。
这个问题可能导致模型制作的视频不稳定,表现为视频帧之间的面部扭曲或抖动,严重的情况下,甚至可能导致视频完全崩溃。为了应对这一挑战,我们在模型中加入了稳定的控制机制,即速度控制器和面部区域控制器,以增强生成过程中的稳定性。这两个控制器作为超参数,作为微妙的控制信号,不损害最终生成的视频的多样性和表现力。此外,为了确保生成的视频中的角色与输入的参考图像保持一致,我们采用并增强了ReferenceNet的方法,设计了一个类似的模块FrameEncoding,旨在保持角色在整个视频中的身份。
最后,为了训练我们的模型,我们构建了一个庞大而多样的音频视频数据集,积累了超过250小时的镜头和超过1.5亿张图像。这个庞大的数据集包含了广泛的内容,包括演讲、电影和电视片段、演唱表演,并涵盖了多种语言,如中文和英语。丰富多样的说话和唱歌视频确保我们的培训材料捕捉到广泛的人类表情和声乐风格,为EMO的发展提供坚实的基础。我们在HDTF数据集上进行了广泛的实验和比较,我们的方法超越了当前最先进的(SOTA)方法,包括DreamTalk, Wav2Lip和SadTalker,跨越多个指标,如FID, SyncNet, F-SIM和FVD。除了定量评估,我们还进行了全面的用户研究和定性评估,结果表明我们的方法能够生成高度自然和富有表现力的谈话甚至唱歌视频,达到了迄今为止最好的效果。
2. 相关工作
扩散模型在各个领域都表现出了卓越的能力,包括图像合成[4,8]、图像编辑[10,24]、视频生成[6,9],甚至3D内容生成[12,17]。其中,Stable Diffusion (SD)[20]是一个典型的例子,它采用UNet架构,在大型文本-图像数据集上进行大量训练后,迭代生成具有显著文本到图像能力的图像[23]。这些预训练模型在各种图像和视频生成任务中得到了广泛的应用[6,9]。此外,最近的一些作品采用了DiT (diffusion -Transformer)[16],它通过一个Transformer来改变UNet,其中包含了时间模块和3D卷积,从而支持更大规模的数据和模型参数。通过从头开始训练整个文本到视频模型,它获得了优异的视频生成效果[14]。此外,一些努力已经深入研究了将扩散模型应用于说话头生成,产生了有希望的结果,突出了这些模型在制作逼真的说话头视频方面的能力[15,27]。
音频驱动谈话头生成音频驱动谈话头生成大致分为两种方法:基于视频的方法[5,18,30]和单图像方法[15,28,33]。基于视频的谈话头生成允许对输入视频片段进行直接编辑。例如,Wav2Lip[18]基于音频再生视频中的嘴唇运动,使用音频-嘴唇同步的鉴别器。它的局限性在于依赖于一个基础视频,导致固定的头部运动,只产生嘴部运动,这限制了真实感。对于单图像说话头生成,使用参考照片来生成反映照片外观的视频。[28]提出通过学习混合形状和头部姿势来独立生成头部运动和面部表情。然后使用这些来创建3D面部网格,作为中间表示来指导最终的视频帧生成。类似地,[33]采用3D变形模型(3DMM)作为生成说话头视频的中间表示。这些方法的一个共同问题是3D网格的有限表示能力,这限制了生成视频的整体表现力和真实感。此外,这两种方法都基于非扩散模型,这进一步限制了生成结果的性能。[15]尝试使用扩散模型生成说话头,但不是直接应用于图像帧,而是使用它们来生成3DMM的系数。与前两种方法相比,Dreamtalk在结果上有所改进,但仍无法实现高度自然的面部视频生成。
3. 方法
给定角色肖像的单个参考图像,我们的方法可以生成与输入语音音频剪辑同步的视频,保留自然的头部运动和生动的表情,与所提供的语音音频的音调变化相协调。通过创建一系列无缝级联视频,我们的模型有助于生成具有一致身份和连贯运动的长时间谈话肖像视频,这对于现实应用至关重要。
3.1 起始
我们的方法采用稳定扩散(SD)作为基础框架。SD是一种广泛使用的文本到图像(tt2i)模型,由潜在扩散模型(Latent Diffusion model, LDM)演变而来[20]。利用自编码器变分自编码器(Variational autoencoder, VAE)[11]将原始图像特征分布x0映射到潜空间z0,将图像编码为z0 = E(x0),将潜特征重构为x0 = D(z0)。这种架构提供了在保持高视觉保真度的同时降低计算成本的优势。基于去噪扩散概率模型(DDPM)[8]或去噪扩散隐式模型(DDIM)[26]方法,SD向潜伏z0引入高斯噪声λ,以在特定时间步长t产生带噪声的潜伏zt。在推理过程中,SD旨在从潜伏zt中去除噪声λ,并结合文本控制,通过整合文本特征来实现期望的结果。该去噪过程的训练目标表示为:
L = E t , c , z t , ϵ [ ∥ ϵ − ϵ θ ( z t , t , c ) ∥ 2 ] \mathcal{L}=\mathbb{E}_{t, c, z_t, \epsilon}\left[\left\|\epsilon-\epsilon_\theta\left(z_t, t, c\right)\right\|^2\right] L=Et,c,zt,ϵ[∥ϵ−ϵθ(zt,t,c)∥2]
其中c表示文本特征,这些特征是通过CLIP [19] ViT-L/14文本编码器从令牌提示符中获得的。在SD中,ϵθ是通过改进的UNet[21]模型实现的,该模型采用交叉注意机制将c与潜在特征融合。
3.2 网络pipelines
图2:提出的方法概述。我们的框架主要由两个阶段构成。在初始阶段,称为帧编码,使用ReferenceNet从参考图像和运动帧中提取特征。随后,在扩散处理阶段,预训练的音频编码器处理音频嵌入。人脸区域掩模与多帧噪声相结合,控制人脸图像的生成。其次是利用骨干网来简化去噪操作。在骨干网中,采用了两种形式的注意机制:参考注意和声音注意。这些机制对于保留角色的身份和调节角色的动作是必不可少的。另外,利用时间模块来控制时间维度,调整运动速度。
我们的方法概述如图2所示。我们的骨干网得到多帧噪声潜在输入,并尝试在每个时间步长的连续视频帧中去噪,骨干网具有与原始sd1.5相似的UNet结构配置。1)与之前的工作类似,为了保证生成帧之间的连续性,骨干网嵌入了时间模块。2)为了在生成的帧中保持人像ID的一致性,我们部署了一个与Backbone并行的UNet结构,称为ReferenceNet,它输入参考图像以获得参考特征。3)为了驱动角色说话运动,利用音频层对声音特征进行编码。4)为了使说话角色的运动具有可控性和稳定性,我们使用了人脸定位和速度层来提供弱条件。
骨干网络。在我们的工作中,没有使用提示嵌入;因此,我们将sd1.5 UNet结构中的交叉注意层调整为参考注意层。这些修改后的层现在将ReferenceNet中的参考特征作为输入,而不是文本嵌入。
音频层。语音中的发音和语调是生成角色动作的主要驱动标志。通过预训练的wav2vec[22]的各个块从输入音频序列中提取的特征被连接起来,以产生第五帧的音频表示嵌入A(f)。然而,动作可能会受到将来/过去音频片段的影响,例如,说话前张嘴和吸气。为了解决这个问题,我们通过连接附近帧的特征来定义每个生成帧的语音特征:A(f) gen =⊕{A(f−m),…A(f),…A(f+m)}, m是来自一侧的附加特征的数量。为了将语音特征注入到生成过程中,我们增加了音频-注意层,在骨干网的每个参考注意层之后,在潜在代码和Agen之间执行交叉注意机制。
参考网络。参考网络具有与骨干网相同的结构,用于从输入图像中提取细节特征。鉴于参考网和骨干网都源自相同的原始sd1.5 UNet架构,这两个结构在某些层上生成的特征图可能会表现出相似性。因此,这有利于骨干网整合由ReferenceNet提取的特征。先前的研究[9,35]强调了使用类似结构在维持目标对象身份一致性方面的深远影响。在我们的研究中,参考网和骨干网都继承了原始SD UNet的权重。将目标字符的图像输入到ReferenceNet中,提取自注意层输出的参考特征映射。在主干去噪过程中,对应层的特征与提取的特征映射进行参考关注层。由于ReferenceNet主要设计用于处理单个图像,因此它缺少Backbone中的时间层。
时间模块。大多数作品尝试将时间混合层插入到预训练的文本到图像架构中,以促进对连续视频帧之间时间关系的理解和编码。通过这样做,增强的模型能够保持跨帧的连续性和一致性,从而产生平滑和连贯的视频流。根据AnimateDiff的架构概念,我们将自关注时间层应用于帧内的特征。具体来说,我们将输入特征映射x∈R b×c×f×h×w重新配置为(b ×h×w) ×f× c的形状。其中,b表示批量大小,h和w表示特征映射的空间维度,f表示生成帧的数量,c表示特征维度。值得注意的是,我们在时间维度f上引导自注意力,以有效地捕捉视频的动态内容。在骨干网的每个分辨率层上插入时间层。目前大多数基于扩散的视频生成模型都受到其产生预定帧数的设计的固有限制,从而限制了扩展视频序列的创建。这种限制在会说话的头部视频的应用中尤其有影响,在这种应用中,足够的持续时间对于表达有意义的讲话至关重要。一些方法采用前一个片段结尾的帧作为下一代的初始帧,目的是在连接的片段之间保持无缝过渡。受此启发,我们的方法结合了最后n帧,称为“运动帧”从以前生成的剪辑,以增强交叉剪辑的一致性。具体来说,这n个运动帧被输入到ReferenceNet中以预提取多分辨率运动特征图。在骨干网的去噪过程中,我们将时序输入与预提取的匹配分辨率的运动特征沿帧维合并。这种简单的方法有效地保证了各个片段之间的连贯性。为了生成第一个视频剪辑,我们将运动帧初始化为零映射。
值得注意的是,虽然骨干网可能会多次迭代以去噪噪声帧,但目标图像和运动帧仅被连接并输入到ReferenceNet中一次。因此,提取的特征在整个过程中被重用,确保推理期间的计算时间不会大幅增加。
面部定位器和速度层。时间模块可以保证生成的帧的连续性和视频片段之间的无缝过渡,但由于生成过程独立,不足以保证生成的角色跨片段运动的一致性和稳定性。以前的作品使用一些信号来控制角色的运动,如skeleton [9], blendshape[33],或3DMM[28],但由于这些控制信号的自由度有限,可能无法很好地创造出生动的面部表情和动作,并且在训练阶段标记不充分,也不足以捕捉到面部动态的全部。此外,相同的控制信号可能导致不同角色之间的差异,无法解释个体的细微差别。能够产生控制信号可能是一种可行的方法[28],但产生逼真的运动仍然是一个挑战。因此,我们选择“弱”控制信号方法。
具体来说,如图2所示,我们使用掩码M =Uf (i=0) Mi作为人脸区域,它包含视频剪辑的人脸边界框区域。我们使用了人脸定位器,它由轻量级的卷积层组成,用于编码边界盒掩码。所得到的编码掩码在输入到主干之前被添加到噪声潜在表示中。通过这种方式,我们可以使用遮罩来控制角色脸应该生成的位置。
然而,由于在单独的生成过程中头部运动频率的变化,在剪辑之间创建一致和平滑的运动是具有挑战性的。为了解决这个问题,我们将目标头部运动速度纳入到生成中。更准确地说,我们考虑帧f中的头部旋转速度 w f w^f wf,并将速度范围划分为d个离散的速度桶,每个桶代表不同的速度水平。每个桶有一个中心值 c d c^d cd 和一个半径 r d r^d rd 。我们将 w f w^f wf 重新定位为向量 S = { s d } ∈ R d S=\left\{s^d\right\} \in \mathbb{R}^d S={sd}∈Rd ,其中 s d = tanh ( ( w f − c d ) / r d ∗ 3 ) s^d=\tanh \left(\left(w^f-c^d\right) / r^d * 3\right) sd=tanh((wf−cd)/rd∗3)。与音频层中使用的方法类似,每帧的头部旋转速度嵌入由 S f = ⊕ { S ( f − m ) , … , S ( f ) , … , S ( f + m ) } S^f=\oplus\left\{S^{(f-m)}, \ldots, S^{(f)}, \ldots, S^{(f+m)}\right\} Sf=⊕{S(f−m),…,S(f),…,S(f+m)} 给出。 S f ∈ S^f \in Sf∈ R b × f × c speed \mathbb{R}^{b \times f \times c^{\text {speed }}} Rb×f×cspeed 则是用MLP进行处理,提取速度特征。在时间层中,我们将 S f S^f Sf 重复到形状 ( b × h × w ) × f × c speed (b \times h \times w) \times f \times c^{\text {speed }} (b×h×w)×f×cspeed ,并实现跨时间维度f的速度特征和重塑特征映射之间的交叉注意机制。通过这样做并指定目标速度,我们可以在不同剪辑中同步生成角色头部的旋转速度和频率。结合人脸定位器提供的面部位置控制,得到的输出既稳定又可控。
还应注意的是,指定的面区域和指定的速度并不构成强控制条件。在人脸定位器中,由于M是整个视频片段的联合区域,表示允许面部运动的相当大的区域,从而确保头部不局限于静态姿势。对于速度层,难以准确估计用于数据集标记的人类头部旋转速度意味着预测的速度序列固有地具有噪声。因此,产生的头部运动只能接近指定的速度水平。这种限制激发了我们设计速度桶框架的动机。
4. 实验
4.1 安装启用
我们从互联网上收集了大约250小时的说话头视频,并补充了HDTF[34]和VFHQ[31]数据集来训练我们的模型。由于VFHQ数据集缺乏音频,因此仅在第一个训练阶段使用。我们采用MediaPipe人脸检测框架[13]来获取人脸边界框区域。利用面部特征提取每帧的6DoF头部姿态来标记头部旋转速度,然后计算连续帧之间的旋转度。
从数据集中采样的视频剪辑被调整大小并裁剪为512 × 512。在第一个训练阶段,参考图像和目标帧分别从视频片段中采样,我们训练了骨干网络和ReferneceNet,批处理大小为48。在第二和第三阶段,我们将f = 12作为生成的视频长度,将运动帧数设置为n = 4,我们采用4个浴大小进行训练。附加特征数m被设置为2,遵循扩散头[27]。所有阶段的学习率设为1e-5。在推理过程中,我们使用DDIM的采样算法生成40步的视频片段,我们为每帧生成指定一个恒定的速度值。我们的方法的时间消耗约为15秒的一批(f = 12帧)。
4.2 实验设置
为了进行方法比较,我们对HDTF数据集进行了分区,分配10%作为测试集,保留其余90%用于训练。我们采取了预防措施,以确保这两个子集之间没有字符id的重叠。
我们将我们的方法与之前的一些工作进行了比较,包括:Wav2Lip [18], SadTalker [33], DreamTalk[15]。此外,我们使用Diffused Heads[27]发布的代码生成结果,然而,该模型是在CREMA[1]数据集上训练的,该数据集只包含绿色背景,生成的结果是次优的。此外,生成的帧之间的错误累积会损害结果。因此,我们只与扩散头方法进行定性比较。对于DreamTalk,我们使用原作者指定的谈话风格参数。
为了证明所提出的方法的优越性,我们用几个定量指标来评估模型。我们利用fr起始距离(FID)[7]来评估生成帧的质量[32]。此外,为了评估结果中的身份保留,我们通过提取和比较生成的帧与参考图像之间的面部特征来计算面部相似度(FSIM)。重要的是要注意,使用单一的,不变的参考图像可能导致看似完美的F-SIM分数。某些方法[18]可能只产生嘴巴区域,而使帧的其余部分与参考图像相同,这可能会使结果产生偏差。因此,我们将F-SIM视为种群参考指标[27],与相应的ground truth (GT)值越接近,表明性能越好。我们进一步采用fr视频距离(FVD)[29]进行视频级别评估。SyncNet[2]评分用于评估唇部同步质量,这是说话头应用的一个关键方面。为了评估生成的视频中面部表情的表现力,我们引入了Expression-FID (E-FID)度量的使用。这涉及到通过面部重建技术提取表情参数,如[3]所述。随后,我们计算这些表达式参数的FID,以定量测量合成视频中表达式与地面真实数据集中表达式之间的差异。
4.3 定性比较
图3:与几个说话头生成作品的定性比较。
图3展示了我们的方法与早期方法的视觉结果。可以观察到,当提供单个参考图像作为输入时,Wav2Lip通常会合成模糊的嘴部区域,并产生以静态头部姿势和最小眼球运动为特征的视频。在DreamTalk[15]中,作者提供的样式剪辑会扭曲原始的面部,也会限制面部表情和头部运动的动态性。与SadTalker和DreamTalk相比,我们提出的方法能够产生更大范围的头部运动和更动态的面部表情。由于我们不利用直接信号,例如blendshape或3DMM,来控制角色的运动,这些运动是由音频直接驱动的,这将在下面的演示中详细讨论。
我们进一步探讨了不同肖像风格的说话头视频的生成。如图4所示,来自Civitai的参考图像由不同的文本到图像(tt2i)模型合成,包括不同风格的角色,即现实主义,动漫和3D。这些角色使用相同的声音音频输入进行动画,导致不同风格的嘴唇同步大致一致。虽然我们的模型只对现实视频进行了训练,但它证明了为各种肖像类型制作谈话头部视频的熟练程度。
图5表明,当处理带有明显音调特征的音频时,我们的方法能够生成更丰富的面部表情和动作。例如,第三排的例子表明,高音的声音会引起角色更激烈、更活跃的表情。此外,利用运动帧可以扩展生成的视频,我们可以根据输入音频的长度生成持续时间较长的视频。如图5和图6所示,我们的方法在扩展序列中保留了角色的身份,即使在大量运动中也是如此。
4.4 定量比较
表1:与几部说话头生成作品的定量比较。
图4:基于不同肖像风格的我们的方法的定性结果。在这里,我们展示了14个生成的视频剪辑,其中的角色是由相同的声音音频剪辑驱动的。每个生成片段的持续时间约为8秒。由于空间限制,我们只从每个剪辑中采样四帧。
如表1所示,我们的结果显示了视频质量评估的实质性优势,FVD分数较低。此外,我们的方法在单个帧质量方面优于其他方法,正如改进的FID分数所表明的那样。尽管在SyncNet指标上没有获得最高分,但我们的方法在生成生动的面部表情方面表现出色,如E-FID所示。
5. 局限性
我们的方法有一些局限性。首先,与不依赖扩散模型的方法相比,它更耗时。其次,由于我们没有使用任何明确的控制信号来控制角色的运动,这可能会导致无意中产生其他身体部位,例如手,从而导致视频中的伪影。这个问题的一个潜在解决方案是使用专门针对身体部位的控制信号。
图5:我们的方法在长时间内产生的具有强烈音调质量的声音音频的结果。在每个片段中,角色都是由具有强烈音质的音频驱动的,例如唱歌,每个片段的持续时间约为1分钟。
图6:与Diffused Heads[27]相比,生成的片段持续时间为6秒,Diffused Heads的结果分辨率较低,并且受到生成帧间错误积累的影响。
6. 参考
- Cao, H., Cooper, D.G., Keutmann, M.K., Gur, R.C., Nenkova, A., Verma, R.:Crema-d: Crowd-sourced emotional multimodal actors dataset. IEEE transactions on affective computing 5(4), 377–390 (2014) 9
- Chung, J.S., Zisserman, A.: Out of time: automated lip sync in the wild. In: Computer Vision–ACCV 2016 Workshops: ACCV 2016 International Workshops, Taipei, Taiwan, November 20-24, 2016, Revised Selected Papers, Part II 13. pp. 251–263. Springer (2017) 10
- Deng, Y., Yang, J., Xu, S., Chen, D., Jia, Y., Tong, X.: Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In: IEEE
Computer Vision and Pattern Recognition Workshops (2019) 10 - Dhariwal, P., Nichol, A.: Diffusion models beat gans on image synthesis (2021) 2, 3
- Fan, Y., Lin, Z., Saito, J., Wang, W., Komura, T.: Faceformer: Speech-driven 3d facial animation with transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022) 414 L. Tian, Q. Wang, B. Zhang, and L. Bo
- Guo, Y., Yang, C., Rao, A., Wang, Y., Qiao, Y., Lin, D., Dai, B.: Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725 (2023) 2, 3, 9
- Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems 30 (2017) 10 8. Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Advances in neural information processing systems 33, 6840–6851 (2020) 2, 3, 4
- Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L.: Animate anyone: Consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117 (2023) 2, 3, 6, 7
- Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I., Irani, M.: Imagic: Text-based real image editing with diffusion models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 6007–6017 (2023) 3
- Kingma, D.P., Welling, M.: Auto-Encoding Variational Bayes. In: 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings (2014) 4
- Lin, C.H., Gao, J., Tang, L., Takikawa, T., Zeng, X., Fidler, X.H.K.K.S., Liu, M.Y., Lin, T.Y.: Magic3d: High-resolution text-to-3d content creation 3
- Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., Zhang, F., Chang, C.L., Yong, M., Lee, J., Chang, W.T., Hua, W., Georg, M., Grundmann, M.: Mediapipe: A framework for building perception pipelines (06 2019) 9
- Ma, X., Wang, Y., Jia, G., Chen, X., Liu, Z., Li, Y.F., Chen, C., Qiao, Y.: Latte: Latent diffusion transformer for video generation. arXiv preprint arXiv:2401.03048 (2024) 3
- Ma, Y., Zhang, S., Wang, J., Wang, X., Zhang, Y., Deng, Z.: Dreamtalk: When expressive talking head generation meets diffusion probabilistic models. arXiv preprint arXiv:2312.09767 (2023) 3, 4, 9, 10, 11
- Peebles, W., Xie, S.: Scalable diffusion models with transformers. arXiv preprint arXiv:2212.09748 (2022) 2, 3
- Poole, B., Jain, A., Barron, J.T., Mildenhall, B.: Dreamfusion: Text-to-3d using 2d diffusion. arXiv preprint arXiv:2209.14988 (2022) 3
- Prajwal, K.R., Mukhopadhyay, R., Namboodiri, V.P., Jawahar, C.: A lip sync expert is all you need for speech to lip generation in the wild. In: Proceedings of the 28th ACM International Conference on Multimedia. p. 484–492. MM ’20, Association for Computing Machinery, New York, NY, USA (2020). https://doi.org/10.1145/3394171.3413532, https://doi.org/10.1145/3394171.3413532 4,
9, 10, 11 - Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International conference on machine learning. pp. 8748–8763. PMLR (2021) 5
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 10684–10695 (2022) 2,
3, 4 - Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) Medical Image Computing and Computer-Assisted Intervention – MICCAI
- pp. 234–241. Springer International Publishing, Cham (2015) 5EMO-Emote Portrait Alive 15
- Schneider, S., Baevski, A., Collobert, R., Auli, M.: wav2vec: Unsupervised pretraining for speech recognition. pp. 3465–3469 (09 2019). https://doi.org/10.21437/Interspeech.2019-1873 6
- Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., Schramowski, P., Kundurthy,
S., Crowson, K., Schmidt, L., Kaczmarczyk, R., Jitsev, J.: Laion-5b: An open large-scale dataset for training next generation image-text models (2022) 3 - Shi, Y., Xue, C., Pan, J., Zhang, W., Tan, V.Y., Bai, S.: Dragdiffusion: Harnessing diffusion models for interactive point-based image editing. arXiv preprint
arXiv:2306.14435 (2023) 3 - Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: International conference
on machine learning. pp. 2256–2265. PMLR (2015) 2 - Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: International Conference on Learning Representations (2021), https://openreview.net/forum?id=St1giarCHLP 4
- Stypułkowski, M., Vougioukas, K., He, S., Zięba, M., Petridis, S., Pantic, M.: Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation. In: https://arxiv.org/abs/2301.03396 (2023) 3, 9, 10, 13
- Sun, X., Zhang, L., Zhu, H., Zhang, P., Zhang, B., Ji, X., Zhou, K., Gao, D., Bo, L., Cao, X.: Vividtalk: One-shot audio-driven talking head generation based on 3d hybrid prior. arXiv preprint arXiv:2312.01841 (2023) 4, 7, 8
- Unterthiner, T., van Steenkiste, S., Kurach, K., Marinier, R., Michalski, M., Gelly, S.: Fvd: A new metric for video generation (2019) 10
- Wen, X., Wang, M., Richardt, C., Chen, Z.Y., Hu, S.M.: Photorealistic audiodriven video portraits. IEEE Transactions on Visualization and Computer Graphics 26(12), 3457–3466 (2020). https://doi.org/10.1109/TVCG.2020.3023573 4
- Xie, L., Wang, X., Zhang, H., Dong, C., Shan, Y.: Vfhq: A high-quality dataset and benchmark for video face super-resolution. In: The IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (2022) 9
- Ye, Z., Zhong, T., Ren, Y., Yang, J., Li, W., Huang, J., Jiang, Z., He, J., Huang,R., Liu, J., et al.: Real3d-portrait: One-shot realistic 3d talking portrait synthesis.arXiv preprint arXiv:2401.08503 (2024) 10
- Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., Shan, Y., Wang, F.: Sadtalker: Learning realistic 3d motion coefficients for stylized audio-driven single image talking face animation. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 8652–8661. IEEE Computer Society, Los Alamitos, CA, USA (jun 2023). https://doi.org/10.1109/CVPR52729.2023.00836, https://doi.ieeecomputersociety.org/10.1109/CVPR52729 . 2023 .00836 4, 7, 9, 11
- Zhang, Z., Li, L., Ding, Y., Fan, C.: Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3661–3670 (2021) 9
- Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M., Kemelmacher-Shlizerman, I.: Tryondiffusion: A tale of two unets. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.4606–4615 (2023) 6