数字人驱动/动画方向最新顶会期刊论文收集整理 | AAAI 2025

会议官方论文列表:https://ojs.aaai.org/index.php/AAAI/issue/view/624

以下论文部分会开源代码,若开源,会在论文原文的摘要下方给出链接。


语音驱动头部动画/其他

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

由音频输入推动的人像图像动画领域在生成逼真和动态的人像方面取得了显着进步。传统方法仅限于利用音频或面部关键点将图像驱动到视频中,虽然它们可以产生令人满意的结果,但存在某些问题。例如,由于音频信号相对较弱,仅由音频驱动的方法有时会不稳定,而仅由面部关键点驱动的方法虽然在驾驶中更稳定,但由于对关键点信息的过度控制,可能会导致不自然的结果。为了解决前面提到的挑战,在本文中,我们介绍了一种我们称之为 EchoMimic 的新方法。EchoMimic 同时使用音频和面部特征点进行训练。通过实施一种新颖的训练策略,EchoMimic 不仅能够单独通过音频和面部特征生成肖像视频,还能够通过音频和选定的面部特征的组合来生成肖像视频。EchoMimic 已与各种公共数据集和我们收集的数据集中的替代算法进行了全面比较,在定量和定性评估方面都表现出卓越的性能。代码和模型可在项目页面上找到。

Occlusion-Insensitive Talking Head Video Generation via Facelet Compensation

说话头像视频生成涉及使用从驱动视频中获取的面部运动线索为静止的面部图像制作动画,以复制目标姿势和表情。传统方法通常依赖于面部关键点的相对位置保持不变的假设。但是,当关键点被遮挡或头部处于轮廓姿势时,此假设会失败,从而导致身份不一致和某些面部区域模糊。在本文中,我们介绍了 Occlusion-Insensitive Talking Head Video Generation,这是一种新方法,它消除了对关键点空间相关性的依赖,而是利用语义相关性。我们的方法将面部特征转换为 facelet 语义库,其中每个 facelet 标记代表一个特定的面部语义。此 SoundBank 不包含空间信息,因此可以在运动变形期间补偿任何不可见或被遮挡的面部区域。然后,Facelet 补偿模块通过学习面部语义和 Facelet Bank 之间的关联矩阵,在最初扭曲的特征中填充 Facelet 标记。这种方法可以精确补偿遮挡和姿势变化,从而提高生成视频的保真度。广泛的实验表明,我们的方法获得了最先进的结果,保留了源身份,保持了细粒度的面部细节,并以非常高的准确性捕捉了细微的面部表情。

ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image

虽然最近的工作在一次性 3D 常见对象生成方面取得了巨大成功,但从单个图像生成高质量和保真度的 3D 头部仍然是一个巨大的挑战。以前基于文本的 3D 头部生成方法受到文本描述的限制,而基于图像的方法难以生成高质量的头部几何形状。为了解决这个具有挑战性的问题,我们提出了一种新的框架 ID-Sculpt,以生成高质量的 3D 头部,同时保留其身份。我们的工作将肖像图像的身份信息分为三个部分:1) 几何初始化,2) 几何雕刻,以及 3) 纹理生成阶段。给定一张参考人像图像,我们首先将身份特征与文本特征对齐,实现 ID 感知引导增强,其中包含代表人脸信息的控制信号。然后,我们使用磁量映射、肖像图像的 ID 特征和预先训练的文本到法线/深度扩散模型来生成 ID 感知几何监督,并采用 3D-GAN 反转来生成 ID 感知几何初始化。此外,由于能够将身份信息注入 3D 头部生成中,我们使用 ID 感知指导来计算用于几何雕刻的 ID 感知分数蒸馏 (ISD)。对于纹理生成,我们采用 ID Consistent Texture Inpainting and Refinement,它逐步扩展纹理修复的视图,以获得初始化的 UV 纹理贴图。然后,我们使用 ID 感知指南为有噪声的多视图图像提供图像级监督,以获得精细的纹理映射。大量实验表明,我们可以从单个野外肖像图像中生成具有精确几何形状和纹理的高质量 3D 头部。

DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation

语音驱动的 3D 面部动画因其广泛的应用而引起了很多关注。尽管最近在实现逼真的嘴唇运动方面取得了进展,但目前的方法无法捕捉到通过语音传达的细微情感底色,并产生单调的面部运动。这些限制会导致生硬和重复的面部动画,从而降低用户参与度并阻碍其适用性。为了应对这些挑战,我们引入了 DEEPTalk,这是一种新颖的方法,可以直接从语音输入生成多样化且情感丰富的 3D 面部表情。为了实现这一目标,我们首先训练 DEE (Dynamic Emotion Embedding),它采用概率对比学习为语音和面部运动打造一个联合情感嵌入空间。这个概率框架捕捉了从语音和面部动作中解释情绪的不确定性,从而能够从其多面空间中推导出情感向量。此外,为了产生动态的面部运动,我们在克服 VAE 和 VQ-VAE 的局限性之前,将 TH-VQVAE (Temporal Hierarchical VQ-VAE) 设计为一种富有表现力和稳健的运动。利用这些强大的先验,我们开发了 DEEPTalk,这是一个会说话的头部生成器,它可以非自回归地预测码本索引以创建动态的面部运动,并结合了一种新的情绪一致性损失。对各种数据集的广泛实验表明,我们的方法在创建多样化、情感表达丰富的谈话面孔方面的有效性,这些面孔保持准确的口型同步。我们的项目页面可在 https://whwjdqls.github.io/deeptalk.github.io/ 上找到。

VQTalker: Towards Multilingual Talking Avatars Through Facial Motion Tokenization

我们介绍了 VQTalker,这是一个基于向量量化的框架,用于多语言说话头像生成,解决了不同语言之间唇形同步和自然运动的挑战。我们的方法基于语音原理,即人类语音由一组有限的不同声音单位(音素)和相应的视觉发音(发音嘴型)组成,它们通常在语言中具有共同点。我们介绍了一种基于组残差有限标量量化 (GRFSQ) 的面部运动分词器,它创建了面部特征的离散表示。这种方法可以全面捕捉面部运动,同时提高对多种语言的泛化能力,即使训练数据有限。基于这种量化表示,我们实现了一个从粗到细的运动生成过程,逐步细化面部动画。大量实验表明,VQTalker 在视频驱动和语音驱动场景中都实现了最先进的性能,尤其是在多语言环境中。值得注意的是,我们的方法在 512 × 512 像素的分辨率下实现了高质量的结果,同时保持了大约 11 kbps 的较低比特率。我们的工作为跨语言的说话面孔生成开辟了新的可能性。

CtrlAvatar: Controllable Avatars Generation via Disentangled Invertible Networks

随着虚拟体验的普及,对逼真、个性化和可动画化的人类化身的需求也在增加。依赖固定模板的传统方法通常会产生成本高昂的头像,这些头像缺乏表现力和真实感。为了克服这些挑战,我们引入了通过解纠缠的可逆网络 (CtrlAvatar) 生成可控头像,CtrlAvatar 是一个用于生成逼真且可自定义头像的实时框架。CtrlAvatar 使用解缠的可逆网络将变形过程分为隐式体几何体和显式纹理组件。这种方法消除了重复占用重建的需要,从而实现了详细和连贯的动画。Body Geometry 组件确保解剖学的准确性,而纹理组件允许复杂、无伪影的服装定制。这种架构确保了身体运动和表面细节之间的平滑整合。通过优化与头像的初始线性混合蒙皮顶点的位置变化偏移量的变换,CtrlAvatar 实现了灵活、自然的变形,以适应各种场景。大量实验表明,CtrlAvatar 在质量、多样性、可控性和成本效益方面优于其他方法,标志着 Avatar 生成的重大进步。

3D²-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling

神经隐式表示和可微渲染的进步显著提高了从稀疏多视图 RGB 视频中学习可动画 3D 头像的能力。然而,当前将观察空间映射到典型空间的方法在捕获与姿势相关的细节和泛化到新姿势方面经常面临挑战。虽然扩散模型在 2D 图像生成中展示了卓越的零镜头功能,但它们从 2D 输入创建可动画 3D 头像的潜力仍未得到充分开发。在这项工作中,我们介绍了 3D²-Actor,这是一种新颖的方法,具有姿势条件的 3D 感知人体建模管道,集成了迭代 2D 降噪和 3D 校正步骤。2D 降噪器在姿势提示的引导下,生成详细的多视图图像,这些图像提供了高保真 3D 重建和姿势渲染所需的丰富功能集。作为补充,我们基于高斯的 3D 整流器通过两阶段投影策略和新颖的局部坐标表示来渲染具有增强 3D 一致性的图像。此外,我们提出了一种创新的采样策略,以确保视频合成中跨帧的平滑时间连续性。我们的方法有效地解决了传统数值解决方案在处理病态映射、生成逼真且可动画化的 3D 人类头像方面的局限性。实验结果表明,3D²-Actor 在高保真头像建模方面表现出色,并且可以稳健地泛化到新颖的姿势。

AnyTalk: Multi-modal Driven Multi-domain Talking Head Generation

跨域说话头生成,例如使用真实的人类视频为静态卡通动物照片制作动画,对于个性化内容生产至关重要。然而,之前的作品通常依赖于特定领域的框架和配对视频,限制了它的实用性,并通过额外的运动对齐模块使其架构复杂化。为了解决这些缺点,我们提出了Anytalk,这是一个统一的框架,它消除了对配对数据的需求,并学习了跨不同域的共享运动表示。运动由使用无监督3D关键点检测器提取的规范3D关键点表示。此外,我们提出了一种表情一致性损失,以提高视频生成中面部动力学的准确性。此外,我们还提出了AniTalk,这是一个全面的数据集,专为高级多模态跨域生成而设计。我们的实验表明,Anytalk擅长生成高质量、多模态说话头视频,展示了跨不同领域的卓越泛化能力。

InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation 北京大学

最近的说话化身生成模型在实现与音频的真实和准确的唇同步方面取得了长足的进步,但在控制和传达化身的详细表情和情感方面往往不足,使得生成的视频不那么生动和可控。在本文中,我们提出了一种文本引导的方法来生成具有情感表现力的2D化身,为生成的视频提供细粒度的控制、改进的交互性和通用性。我们的框架名为InstructAvata,利用自然语言界面来控制化身的情感和面部运动。从技术上讲,我们利用GPT-4V设计了一个自动注释管道,构建了一个指令-视频配对训练集。这与一种新颖的基于两分支扩散的生成器相结合,可以同时使用音频和文本指令来预测化身。实验结果表明,InstructAvatar产生的结果与这两种条件都很好地一致,并且在细粒度情绪控制、唇同步质量和自然度方面优于现有方法。

GraphAvatar: Compact Head Avatars with GNN-Generated 3D Gaussians

从任意视点渲染逼真的头部化身对于虚拟现实等各种应用至关重要。尽管以前基于神经辐射场(NeRF)的方法可以取得令人印象深刻的结果,但它们缺乏保真度和效率。最近使用3D高斯散射(3DGS)的方法提高了渲染质量和实时性能,但仍需要大量的存储开销。在本文中,我们介绍了一种称为GraphAvator的方法,该方法利用图形神经网络(GNN)为头部化身生成3D高斯。具体来说,GraphAv从来自跟踪的网格中训练几何GNN和外观GNN以生成3D高斯的属性。因此,我们的方法可以存储GNN模型而不是3D高斯模型,显着将存储开销减少到仅10MB。为了减少面部跟踪错误的影响,我们还提出了一种新颖的图形引导优化模块,用于在训练期间细化面部跟踪参数。最后,我们介绍了一种用于后处理的3D感知增强器,以提高渲染质量。我们进行了全面的实验来展示GraphAvator的优势,在视觉保真度和存储消耗方面超越了现有方法。消融研究揭示了渲染质量和模型大小之间的权衡。

Hierarchically Controlled Deformable 3D Gaussians for Talking Head Synthesis

音频驱动的说话头合成是数字人体建模中的一项关键任务。虽然使用扩散模型和神经辐射场(NeRF)的最新进展提高了视觉质量,但它们通常需要大量的计算资源,从而限制了实际部署。我们提出了一种用于音频驱动的说话头合成的新颖框架,即它分层控制变形3D高斯(HiCoDe),它在显着降低计算成本的情况下实现了最先进的性能。我们的主要贡献是一种分层控制策略,它有效地弥合了稀疏音频特征和密集的3D高斯点云之间的差距。具体来说,该策略包括两个控制级别:i)基于3D可变形模型(3DMM)的粗略级别控制和ii)使用面部地标的精细级别控制。在HDTF数据集和其他测试集上的广泛实验表明,我们的方法在视觉质量、面部地标准确性和视听同步方面优于现有方法,同时在训练和推理方面具有更高的计算效率。

PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis

具有任意语音音频的说话头合成是数字人类领域的一个至关重要的挑战。最近,基于辐射场的方法由于能够从短短几分钟的训练视频中合成高保真和身份一致的说话头而受到越来越多的关注。然而,由于训练数据的规模有限,这些方法在音频-唇同步和视觉质量方面往往表现出较差的性能。在本文中,我们提出了一种名为PointTalk的基于3D高斯的新颖方法,该方法构建了头部的静态3D高斯场,并与音频同步地对其进行变形。它还结合了音频驱动的动态唇点云作为条件信息的关键组件,从而促进了说话头的有效合成。具体而言,初始步骤涉及从音频信号中生成相应的唇点云并捕获其拓扑结构。动态差分编码器的设计旨在更有效地捕捉动态唇部运动中固有的细微差别。此外,我们集成了音频点增强模块,这不仅确保了音频信号与需求空间内相应唇部点云的同步,还有助于更深入地理解跨模态条件特征之间的相互关系。广泛的实验表明,与以前的方法相比,我们的方法在说话头合成中实现了卓越的高保真度和音频-唇部同步。

MegActor-Sigma: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer

扩散模型在肖像动画中表现出卓越的性能。然而,目前的方法依赖于视觉或音频模态来控制角色的运动,未能利用混合模态控制的潜力。这一挑战源于难以平衡音频模态的弱控制强度和视觉模态的强控制强度modality.To针对这一问题,我们引入了MegActor-Sigma:一种混合模态条件扩散变压器(DiT),它可以灵活地将音频和视觉模态控制信号注入人像动画。具体来说,我们通过利用DiT有前途的模型结构并通过DiT中的高级模块集成音频和视觉条件,对其前身MegActor进行了实质性的改进framework.To进一步实现混合模态控制信号的灵活组合,我们提出了一种“模态解耦控制”训练策略来平衡视觉和音频模态之间的控制强度,以及“幅度调整”推理策略来自由调节每个模态的运动幅度。最后,为了促进该领域的广泛研究,我们设计了几个数据集评估指标来过滤掉公共数据集,并仅使用这个过滤后的数据集进行训练。广泛的实验证明了我们的方法在生成生动的肖像动画方面的优越性。

RealPortrait: Realistic Portrait Animation with Diffusion Transformers 腾讯

我们引入了RealPortrait,这是一个基于扩散变形金刚(DiT)的框架,旨在生成极具表现力和视觉吸引力的肖像动画。给定一个静态肖像图像,我们的方法可以将从驾驶视频中提取的复杂面部表情和头部姿势运动转移到肖像上,将其转换为逼真的视频。具体来说,我们利用了DiT强大的时空建模能力,能够生成保持高保真视觉细节并确保时间一致性的肖像视频。与需要单独参考网络的传统图像到视频生成框架相比,我们在DiT主干中加入了高效的参考注意力,从而避免了计算开销并实现了卓越的参考外观保护。同时,我们集成了一个并行的ControlNet来精确调节复杂的面部表情和头部姿势。与利用显式稀疏运动表示(如面部地标或3DMM系数)的现有方法不同,我们采用密集的隐式运动表示作为控制指导。这种隐式运动表示擅长捕捉细微的情感面部表情和微妙的非刚性动态lips.To进一步增强模型的泛化能力,我们通过随机裁剪增强合并大量面部图像数据来增强训练集。这种策略确保了模型在各种面部外观和表情中的鲁棒性。经验评估表明,RealPortrait在生成具有高度逼真质量和外观保留的特殊时间连贯性的肖像动画方面表现出色。

GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expressions

音频驱动的说话头部生成需要在多样化的输入肖像和音频和面部运动之间错综复杂的相关性所带来的挑战中无缝集成音频和视频数据。作为回应,我们提出了一个强大的框架GoHD,旨在从任何参考身份和任何运动中生成高度逼真、富有表现力和可控的肖像视频。GoHD通过三个关键模块进行创新:首先,引入了一个利用潜在导航的动画模块,以提高跨看不见的输入样式的泛化能力。该模块实现了运动和身份的高度解脱,并且还结合了注视方向,以纠正以前被忽视的不自然的眼球运动。其次,设计了一个conformer-structured条件扩散模型,以保证头部姿势能够意识到韵律。第三,为了在有限的训练数据内从输入音频中估计唇同步和逼真的表达,设计了一个两阶段训练策略,将频繁和逐帧的唇运动蒸馏与其他时间依赖性更强但与音频相关更少的运动(例如眨眼和皱眉)的生成分离。广泛的实验验证了GoHD的高级泛化能力,证明了它在任意主题上生成逼真的说话脸结果的有效性。

语音驱动手势

DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech

扩散模型在生成共声手势方面表现出卓越的合成质量和多样性。然而,与扩散模型相关的计算密集型采样步骤阻碍了它们在实际应用中的实用性。因此,我们提出了 DIDiffGes,用于基于 Decoupled Semi-Implicit Diffusion 模型的框架,该框架只需几个采样步骤即可从语音中合成高质量、富有表现力的手势。我们的方法利用生成对抗网络 (GAN) 来实现扩散模型的大步采样。我们将手势数据解耦为身体和手部分布,并进一步将它们分解为边缘分布和条件分布。GAN 隐式地对边际分布进行建模,而 L2 重建损失则单独学习条件分布。此策略可增强 GAN 训练的稳定性,并确保生成的全身手势的表现力。我们的框架还学习了根据局部身体表现对根噪声进行降噪,从而保证了稳定性和真实感。DIDiffGes 只需 10 个采样步骤即可从语音生成手势,而不会影响质量和表现力,与现有方法相比,采样步骤的数量减少了 100 倍。我们的用户研究表明,我们的方法在人类相似度、适当性和风格正确性方面优于最先进的方法。

facial landmark detection (FLD)

POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search

实现精度和效率之间的平衡是面部地标检测(FLD)中的一个关键挑战。本文介绍了并行最优位置搜索(POPoS),这是一种高精度编码-解码框架,旨在解决传统FLD方法的局限性。POPoS采用了三个关键贡献:(1)利用伪距多重分割来纠正热图错误,提高地标定位精度。通过集成多个锚点,它减少了单个热图不准确的影响,从而导致稳健的整体定位。(2)为了增强选定锚点的伪距精度,提出了一种新的损失函数,命名为多重锚点损失。这种损失函数增强了距离图的准确性,减轻了局部最优的风险,并确保了最优解。(3)引入了单步并行计算算法,提高了计算效率,减少了流转时长。对五个基准数据集的广泛评估表明,POPoS始终优于现有方法,特别是在计算开销最小的低分辨率热图场景中表现出色。这些优势使POPoS成为FLD的高效准确工具,在现实世界场景中具有广泛的适用性。

其他

FlexiTex: Enhancing Texture Generation via Visual Guidance 纹理生成

最近的纹理生成方法取得了令人印象深刻的结果,因为它们利用了强大的生成先验,来自大规模文本到图像扩散模型。但是,抽象文本提示在提供全局纹理或形状信息方面受到限制,这会导致纹理生成方法产生模糊或不一致的图案。为了解决这个问题,我们推出了 FlexiTex,通过视觉引导嵌入丰富的信息,以生成高质量的纹理。FlexiTex 的核心是视觉引导增强模块,它整合了来自视觉引导的更具体的信息,以减少文本提示中的歧义并保留高频细节。为了进一步增强视觉引导,我们引入了一个方向感知自适应模块,该模块根据不同的相机姿势自动设计方向提示,避免了 Janus 问题并保持语义全局一致性。得益于视觉引导,FlexiTex 产生了定量和定性上合理的结果,展示了它为实际应用推进纹理生成的潜力。

OmniSR: Shadow Removal Under Direct and Indirect Lighting 直接和间接照明下的阴影去除

阴影可以起源于直接和间接照明中的遮挡。尽管目前大多数阴影去除研究都集中在直接照明引起的阴影上,但间接照明产生的阴影通常同样普遍,特别是在室内场景中。从间接照明中去除阴影的一个重大挑战是获得无阴影图像来训练阴影去除网络。为了克服这一挑战,我们提出了一种新颖的渲染管道,用于在直接和间接照明下生成阴影和无阴影图像,并创建了一个包含超过30,000个图像对的综合合成数据集,涵盖了各种对象类型和照明条件。我们还提出了一种创新的阴影去除网络,通过连接和注意力机制显式集成语义和几何先验。实验表明,我们的方法优于最先进的阴影去除技术,可以有效地推广到各种光照条件下的室内和室外场景,提高了阴影去除方法的整体有效性和适用性。

Stable-Hair: Real-World Hair Transfer via Diffusion Model 更换发型

当前的头发转移方法难以处理多样化和复杂的发型,限制了它们在现实世界场景中的适用性。在本文中,我们提出了一种新颖的基于扩散的头发转移框架,命名为Stable-头发,它将广泛的现实世界发型稳健地转移到用户提供的面部以进行虚拟头发试穿。为了实现这一目标,我们的Stable-头发框架被设计为一个两阶段的管道。在第一阶段,我们训练了一个秃头转换器,旁边是稳定的扩散,以从用户提供的面部图像中去除头发,从而产生秃头图像。在第二阶段,我们专门设计了一个毛发提取器和一个潜在识别网,以将具有高度细节和高保真度的目标发型转移到秃头图像中。毛发提取器经过训练,可以对具有所需发型的参考图像进行编码,而潜在识别网确保身份和背景的一致性。为了最大限度地减少源图像和传输结果之间的颜色偏差,我们引入了一种新颖的潜在控制网架构,它同时充当秃头转换器和潜在识别网。在我们精心策划的三元组数据集上进行训练后,我们的方法准确地将高度详细和高保真的发型传输到源图像。广泛的实验表明,与现有的头发传输方法相比,我们的方法实现了最先进的性能。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值