【扩散模型】论文精读：VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

十小大

已于 2024-04-08 15:09:23 修改

阅读量4.5k

点赞数 20

分类专栏：扩散模型论文精读文章标签：计算机视觉深度学习扩散模型实时音视频音视频论文阅读论文笔记

于 2024-04-08 15:01:59 首次发布

本文链接：https://blog.csdn.net/qq_36584673/article/details/137229926

版权

扩散模型论文精读专栏收录该内容

7 篇文章

订阅专栏

广告位：

图像拼接论文精读专栏 —— 图像拼接领域论文全覆盖（包含数据集），省时省力读论文，带你理解晦涩难懂的论文算法，学习零散的知识和数学原理，并学会写图像拼接领域的论文（介绍、相关工作、算法、实验、结论、并附有参考文献，不用一篇一篇文章再找）

图像拼接论文源码精读专栏 —— 图像拼接有源码的论文全覆盖（有的自己复现），帮助你通过源码进一步理解论文算法，助你做实验，跑出拼接结果，得到评价指标RMSE、SSIM、PSNR等，并寻找潜在创新点和改进提升思路。

超分辨率重建专栏 —— 从SRCNN开始，带你读论文，写代码，复现结果，找创新点，完成论文。手把手教，保姆级攻略。帮助你顺利毕业，熟练掌握超分技术。

有需要的同学可以点上面链接看看。

前言

论文题目：VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis —— VLOGGER：具身化身合成的多模态扩散

论文地址：VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

论文源码：https://enriccorona.github.io/vlogger/

谷歌出品！让图像说话！口型和语音对应！

Abstract

我们提出了 VLOGGER，这是一种从一个人的单个输入图像生成音频驱动的人类视频的方法，它建立在最近生成扩散模型的成功之上。我们的方法包括 1) 随机人到 3d 运动扩散模型，以及 2) 一种新颖的基于扩散的架构，该架构通过空间和时间控制来增强文本到图像模型。这支持生成可变长度的高质量视频，通过人脸和身体的高级表示轻松控制。与之前的工作相比，我们的方法不需要对每个人进行训练，不依赖于人脸检测和裁剪，生成完整的图像(而不仅仅是人脸或嘴唇)，并考虑广泛的场景(例如可见的躯干或不同的主题身份)，这对于正确合成交流的人至关重要。我们还策划了 MENTOR，这是一个新颖多样的数据集，具有 3d 姿势和表情注释，比以前的数据集（800,000 个身份）和动态手势大一个数量级，在此基础上我们训练和消融我们的主要技术贡献。VLOGGER 在图像质量、身份保存和时间一致性以及生成上半身手势的同时，在三个公共基准上的表现优于最先进的方法。我们分析了 VLOGGER 对多个多样性指标的性能，表明我们的架构选择和使用 MENTOR 好处大规模训练公平和公正的模型。最后，我们展示了视频编辑和个性化应用。
在这里插入图片描述

1 Introduction

我们提出了 VLOGGER，这是一种基于文本或音频自动生成说话和移动人的视频的方法，并且只给出该人的单个图像。内容创建、娱乐或游戏等行业都对人工合成有很高的要求。然而，人类真实视频的创建仍然很复杂，而且具有伪影的成熟。这需要对实际结果进行显着的人工干预。然而，完全自动化不仅简化了创造性的过程，而且使全新的用例成为可能，例如增强在线通信、教育或个性化虚拟助手，等等。鉴于聊天代理最近的成功 [43, 50]，后者尤其重要。研究表明，这些解决方案被认为不足以发展同理心[103]，一些作者[37]认为拟人化和行为现实主义(如凝视、面部表情、全身运动等)对于创造社会存在感和从用户那里引出同理心反应至关重要。这些特征将导致代理[46]的广泛采用，在客户服务[1,53]、远程医疗[62]、教育[61]或人机交互[58]等领域。正是我们在这项工作中旨在实现的自动化和行为现实主义：VLOGGER 是具体化对话代理 [74] 的多模态界面，配备了音频和动画视觉表示，具有复杂的面部表情和不断增加的身体动作水平，旨在支持与人类用户的自然对话。VLOGGER 可以用作演示、教育、叙述、低带宽在线交流的独立解决方案，并作为纯文本 HCI 的界面 [3, 100]。在本文中，我们还说明了它在视频编辑任务中的潜力。

由于数据采集、自然方式制作面部表情、音频同步、遮挡或表示全身运动等挑战，多模态、逼真的人体合成是复杂的——特别是考虑到单个输入图像。许多尝试只关注唇形同步[54,75,82]，通过编辑驾驶视频的嘴部区域。最近，[93,95]依赖于人脸重演 [9,19,29,49,69,87,96] 的广泛进展，通过预测音频的面部运动从单个图像生成说话的头部视频。时间一致性通常是通过依赖于人脸关键点的平滑引导运动，通过每帧图像生成网络来实现的。然而，这可能会导致模糊，并不能确保远离人脸的区域的时间相干性。因此，每当身体的很大一部分可见时，大多数方法都需要检测和裁剪头部。在本文中，我们认为交流不仅仅是与嘴唇和面部运动相结合的“公正”音频——人类通过手势、凝视、眨眼或姿势与他们的身体交流。MODA[40]最近开始探索面部和身体的动画，但在有限的场景中，并且没有泛化到新的身份。相比之下，我们的目标是一个通用的、与人无关的合成解决方案，专注于运动的真实性和多样性，包括头部和手势。我们的目标是弥合最近的视频合成努力之间的差距[2,6,36,64]，它可以生成动态视频，不受身份或姿态的控制，以及可控的图像生成方法[9,19,59]。

为此，我们提出了一种两步法，该方法首先基于生成扩散的网络根据输入音频信号预测身体运动和面部表情。这种随机方法需要对语音和姿势、凝视和表情之间的细微差别(一对多)映射进行建模。其次，我们提出并消融了基于最近图像扩散模型的新颖架构，该模型提供了对时间和空间域的控制。通过额外依赖在预训练期间获得的生成人类先验，我们展示了这种组合架构如何提高图像扩散模型的容量，这通常难以生成一致的人类图像（例如眼睛）。VLOGGER 由基础模型和超分辨率扩散模型组成，以获得高质量的视频。我们将视频生成过程限制在代表全身的 2d 控件上，包括以前工作中的面部表情，以及身体和手。为了生成任意长度的视频，我们遵循时间外绘方法，根据前一帧对新的视频片段进行条件处理。最后，VLOGGER 的灵活性能够编辑输入视频的特定部分，例如嘴唇或面部区域。

对于鲁棒性和泛化，我们在肤色、身体姿势、视点、语音和身体可见性方面策划了一个比以前可用数据具有更大的多样性的大规模数据集。与之前的尝试相比，数据集还包含具有动态手势的视频，这对于学习人类交流的复杂性很重要。VLOGGER 在不同的多样性指标上优于以前的工作，并在之前的 HDTF [97] 和 TalkingHead-1KH [79] 数据集上获得了最先进的结果图像质量和多样性结果。此外，我们的方法考虑了比基线更大的场景范围，通过生成头部和上半身运动的高分辨率视频，并通过具有相当多样化的面部表情和手势。最后，在实验部分，我们探索了下游应用程序，以证明 VLOGGER 的灵活性和适应不同场景的能力。例如，VLOGGER可以通过修复每帧的选定区域，例如嘴唇或面部，以及用于个性化，用于视频编辑。

总而言之，主要贡献是：1）VLOGGER 是第一个在给定语音输入的情况下生成说话和移动人类的方法； (2) 利用多样化、策划的数据集，称为MENTOR，比现有的数据集大一个数量级，用于训练和测试我们的模型； (3) 一项大型消融研究，验证了所提出的受控视频生成方法，与现有的基于扩散的解决方案相比，并展示了所提出的 2d 身体控制的好处； (4) VLOGGER 在三个公共基准的大规模定量比较上优于以前的 SOTA； (5) VLOGGER 在低偏差且在不同感知人类属性上优于基线的多样性分析； (6) VLOGGER 在视频编辑中的应用及其随机性分析。

2 Related Work

音频驱动的说话人脸生成。在说话人脸生成方面有大量的工作，可以根据驾驶输入、中间表示和输出格式进行分类。我们在 Tab1 中提供了与我们工作的概述和比较。基于音频片段的 3D 可变形人脸 [14,18,57,65,68,84] 或全身 [90] 模型的动画存在大量工作。这些努力可以以各种统计头部或身体模型的时间连贯姿势和形状参数的形式生成不同的 3d 说话头 [5, 7, 38, 52, 85]。我们考虑类似的网络来指导生成的运动，但在本文中，我们的目标是生成具有表情和头部运动多样性的逼真说话人类，这些人类与目标主题的图像一致。我们考虑输出视频中的时间一致性、主题多样性、头发、凝视和细节等挑战。在这里插入图片描述

在图像域，早期的工作集中在嘴部编辑的任务[11,13,31,54,73,97]，如只预测嘴唇运动、同步带有输入音频。后续工作添加了扩展特征，如头部运动、凝视和眨眼[32,41,56,67,98,102]，使用中间2d、3d地标或基于流的表示。为了提高照片真实感水平，大量的作品广泛地用作损失的一部分[8，9，17，55，80，92]，最近的一些方法提出使用扩散模型[65，66，93]。然而，在 GAN [20, 34] 或通用扩散模型的潜在空间中运行时，很难确保身体、头部运动、眨眼、凝视和面部表情之间的适当解开。我们的方法不需要使用自定义感知、凝视、身份保持或唇形同步损失。由于缺乏数据和生成连贯视频的难度，没有考虑身体运动和手势。我们策划了一个大规模数据集，并为这个问题提出了一个完整的管道。VLOGGER 可以生成连贯的面部和全身运动，具有各种表情、头部和身体运动、凝视、眨眼和准确的嘴唇运动。此外，我们表明我们的方法在不同的多样性轴上更具表现力和鲁棒性。

面部重演。基于视频的说话人脸生成旨在将源视频的运动转移到目标人，并在过去得到了广泛的研究[9,23,28,29,49,69,81,87,96,99,101]。大多数方法依赖于中间表示，例如稀疏或密集地标、语义掩码、3d密集表示或扭曲特征。在 3d 域中，一些作品利用了基于 NeRF [4, 44] 的解决方案 [22, 39, 88, 89]。然而，这需要在谈话中大量目标人物的帧，以便重新训练和动画它们。该任务与我们的密切相关，之前的一些工作在考虑音频作为输入时调整这些中间表示。然而，在我们的例子中，我们的目标是从纯文本视频中向前移动，并考虑更多样化的输入样本，例如包含身体和头发运动。

视频生成。同样与我们的工作相关的是视频生成的主题。这是一个在社区中被广泛探索的任务，因此我们只关注最相关的方向。随着文本到图像扩散模型[16]的成功，许多工作还探索了它们对视频域的扩展[2,6,24,26,35,36,64,72,83]，但大多数都在几秒钟或分辨率上受到限制。此外，尽管可用数据量，大多数以前的工作没有明确处理人类。在我们的例子中，我们通过添加时空控制将当前最先进的图像扩散模型扩展到时间域，并提出了一种迭代外绘过程来生成可变长度的视频。虽然并行工作为更通用的场景探索了类似的网络架构 [2,64]，但我们的目标是通过使用 1) 姿势 3D 身体模型的密集渲染和 2) 扭曲的参考图像参数化每一帧来对说话的人进行动画处理。这些控制使生成过程更加稳定，如实验部分所示。

3 Method

我们的目标是生成可变长度的逼真视频 V，合成目标人类说话，具有逼真的头部运动和手势。我们的框架，我们称之为VLOGGER，如图2所示。VLOGGER是一种基于随机扩散模型的两阶段管道，用于表示从语音到视频的一对多映射。第一个网络以采样率 S 的音频波形 a ∈ RN S 作为输入，以生成中间身体运动控制 C，这些控制负责目标视频长度 N 上的注视、面部表情和 3D 姿势。第二个网络是一个时间图像到图像的转换模型，它扩展了大图像扩散模型，利用预测的身体控制生成相应的帧。为了将过程调整到特定的身份，网络也取一个人的参考图像。我们在新引入的MENTOR数据集上训练VLOGGER(§3.3)。接下来我们描述这两个网络。在这里插入图片描述

3.1 Audio-Driven Motion Generation

架构。我们的管道 M 的第一个网络旨在基于输入语音预测驾驶运动。我们还通过文本到语音模型考虑输入文本，将输入转换为波形[70]，并将生成的音频表示为标准的Mel-Spectrogram。M 基于 Transformer 架构 [71]，在时间维度上有四个多头注意力层。我们在帧和扩散步骤的数量上包括位置编码，以及输入音频和扩散步骤的嵌入 MLP。在每一帧，我们使用因果掩码来使模型只关注先前的帧。该模型使用可变长度视频进行训练，以生成非常长的序列，例如在 TalkingHead-1KH 数据集 [79] 中（参见第 4 节）。

我们依靠统计和富有表现力的 3D 身体模型 [33,51,63,85] 的估计参数来为合成视频生成中间控制表示。这些模型同时考虑了面部表情和身体运动，为具有更具表现力和动态手势的人体合成打开了大门。我们任务运动生成网络根据帧 i 中的输入音频 ai 预测面部和身体参数 M (ai) = {θei , Δθbi }。特别是，该模型在身体姿势 θbi 上生成表达式 θei 和残差。通过预测位移，即 Δθbi ，我们使模型能够为目标主体采用参考位姿 θbref 的输入图像，并为帧 1 ≤ i ≤ N，用 θbi = θbref +Δθb i 相对动画人。几何域中人的身份由身体形状代码建模。在训练和测试期间，我们使用通过将参数身体模型拟合到输入图像获得的估计 3D 形状参数。为了利用基于 CNN 的架构的 2D/3D 预测，我们使用预测的表情和姿势参数对模型进行姿势，并将姿势身体的模板顶点位置栅格化为密集表示，以获得密集掩码 {Cd i}1≤i≤N ∈ RH×W ×3。我们还为 Nc 个不同的语义类栅格化身体的语义区域，{Cm i }1≤i≤N ∈ {0, 1}H×W ×Nc 。

此外，以前的人脸重现工作通常依赖于扭曲的图像[19，76，95，99]，但它们在基于扩散的人体动画架构中被忽略了[10，30，78]。我们建议弥合这两种表示之间的差距，并使用扭曲的图像来指导生成过程，我们注意到这有助于网络的任务并有助于保留主题身份（见表。3)。我们为参考图像中可见的每个身体顶点分配一个像素颜色，并在每个新帧中渲染身体，得到部分扭曲{Cwi}1≤i≤N∈RH×W×3。对于所有渲染，栅格化过程假设一个全视角相机，从训练视频或参考图像推断出对角线视场。插图，见图2。我们将在下一节中和Sup中描述时间图像扩散模型。垫子。我们还在实验部分消除了密集表示和扭曲图像的使用。

损失函数。该模型遵循扩散框架，该框架将高斯噪声 ε ∼ N (0, 1) 逐步添加到真实样本 x0 = {{θei , Δθbi}}1≤i≤N ，具有条件音频输入 a。目标是通过训练从噪声输入 xt 预测添加噪声的去噪网络 εφ 来模拟真实头部和身体的运动分布 x0 ∼ q(x0|a)，其中 t 是任意扩散步骤。在我们的例子中，我们通过直接预测真实分布来获得更好的性能
$\mathcal{L}_{\text {diff }}=\mathbb{E}_{x_{0}, t, \boldsymbol{a}, \epsilon \sim \mathcal{N}(0,1)}\left[\left\|x_{0}-\epsilon_{\phi}\left(x_{t}, t, \boldsymbol{a}\right)\right\|_{2}^{2}\right] .\tag{1}$

我们还包括一个额外的时间损失来惩罚连续帧的预测差异，Ltemp = ∥εφ(xt, t, a)i+1 − εφ(xt, t, a)i∥2 2，对于任何给定的帧 i ∈ N ，并使用两个损失的线性组合训练完整模型，即 Ldiff + λtempLtemp。在实践中，我们对表情和身体姿势使用不同的时间损失权重，以确保头部和手的运动更平滑，同时允许面部表情的动态更大。

3.2 Generating Photorealistic Talking and Moving Humans

架构。我们接下来的目标是为一个人的输入图像 Iref 动画，使其遵循先前预测的身体和面部运动，用语义、稀疏和密集掩码 C 表示。基于这些基于图像的控制，我们提出了最先进的扩散模型[60]的时间感知扩展。受 ControlNet [94] 的启发，我们冻结初始训练模型并对其编码层进行零初始化的可训练副本，该副本接受输入时间控制 C。我们在时间域交错1d卷积层，在每个下采样块的第一层和第二个GroupNorm激活之前，如图2所示。该网络是通过取N个连续的帧和控制来训练的，并负责根据输入控制生成动画的参考人的短片段。

训练。我们在 MENTOR 数据集上训练我们的方法，该数据集由唯一人类受试者的全长视频组成。因为在训练过程中，网络采用一系列连续的帧和一个人的任意参考图像Iref，理论上我们可以分配任何视频帧作为参考。在实践中，我们从目标剪辑中采样参考距离更远（暂时），因为更接近的示例使训练变得微不足道，并提供更好的泛化潜力。该网络分两个阶段进行训练，首先在单个帧上学习新的控制层 [94]，然后通过添加时间组件对视频进行训练。这使得在第一阶段使用大量批量大小并更快地学习头部重演任务。我们分两个阶段训练学习率为 5e-5 的图像模型，批量大小为 128 的 400k 步。我们在表 3 中消融了这个训练计划的效果，有关训练过程的更多详细信息，请参见 Sup.Mat。

损失函数。与上一节和Eq.(1)中描述的损失类似，我们遵循扩散过程，将噪声εI添加到地面真实图像I中。我们的工作基于在内部数据源上训练的 Imagen [60] 版本，该版本预测添加的噪声 εI
$\mathcal{L}_{\text {diff }}^{I}=\mathbb{E}_{x_{0}^{I}, t, \mathbf{C}, \epsilon^{I} \sim \mathcal{N}(0,1)}\left[\left\|\epsilon^{I}-\epsilon_{\phi}^{I}\left(x_{t}^{I}, t, \mathbf{C}\right)\right\|_{2}^{2}\right] .\tag{2}$

超分辨率。虽然之前的方法是分辨率独立的，但我们以128 × 128的分辨率生成基本视频，并使用级联扩散方法在两个超分辨率变体中扩展时间条件，以获得256 × 256或512 × 512的高质量视频。生成的图像记为{Gi}1≤i≤N。高分辨率示例如图 1 和图 4 所示。

推理过程中的时间外绘。所提出的时间扩散模型被训练为仅生成固定数量的帧 N ，因此如何将它扩展到可变长度的视频并不明显。以前的大多数基于扩散的视频生成方法仅限于短片段[27，35，83]或依赖于平滑生成的中间令牌表示[72]，但不能保证像素域中的平滑变化。在这里，我们探讨了时间外画的想法：我们首先生成 N 帧，然后我们根据之前的 N - N ' 迭代出油漆 N ' < Nframes。选择两个连续剪辑之间的重叠量，即 N -N ' 作为质量和运行时间之间的权衡。我们使用 DDPM 生成每个视频剪辑，并表明这种方法可以扩展到数千个帧。有关详细信息，请参阅 Tab2 中的消融。我们验证了主要的设计选择，并表明我们的最终网络可以生成真实和时间连贯的人类视频。

3.3 MENTOR Dataset

我们从一个大型的内部视频存储库管理MENTOR数据集，这些存储库包含一个说话者，主要面向摄像头，从躯干向上通信，主要以英语方式通信。视频包含240帧，24帧/秒(10秒剪辑)，音频为16 kHz。

为了对全身交流人类进行建模，我们估计 3d 身体关节和手，并通过最小化连续帧之间的投影误差和时间差异来拟合统计铰接 3D 身体模型。我们过滤掉背景有意义变化的视频，人脸或身体只有部分被检测到，或者他们的估计是抖动的，其中手是完全未检测到的(例如，在人类抓取和操纵物体的情况下)，或者音频质量较低。这个过程产生了超过 8M 秒（2.2K 小时）和 800K 身份的训练集，以及 120 小时和 ∼4K 身份的测试集，使其成为迄今为止在身份和长度方面的最大数据集，分辨率更高。此外，MENTOR 数据集包含广泛的主题（例如肤色、年龄）、视点或身体可见性。Sup 中提供了与现有数据集的统计数据和更广泛的比较。垫子。我们的目标是向更广泛的研究社区发布策划的视频 ID、人脸拟合和估计的身体姿势。

4 Experiments

数据和训练。我们在MENTOR数据集上训练VLOGGER，如第3.3节所述，基本分辨率为128 × 128，级联分辨率为256 × 256和512 × 512。对HDTF[97]、TalkingHead-1KH[79]和MENTOR的测试集进行评估。我们还在 MENTOR 数据集上消融了我们的方法在不同场景中的性能，并报告了它在年龄、感知性别或肤色等多个多样性指标的基线上的性能。

基线。我们与几种最先进的方法进行了比较，即[42,76,77,95,104]。请注意，与我们的方法不同，所有基线都需要裁剪面部区域，因为它们只能检测和动画头部。

指标。我们依靠指标的组合来评估生成视频的图像质量、唇形同步、时间一致性和身份保存。对于图像质量，FID 分数 [25] 测量地面实况和生成图像分布之间的距离，而 Blur Detection (CPBD) [47, 48] 和自然图像质量评估器 (NIQE) [45] 的累积概率验证了生成图像的质量。根据说话人脸生成的文献，我们接下来估计人脸地标坐标，并报告嘴顶点位置 (LME) 的差异来衡量唇形同步质量。我们还报告了 LSE-D [12] 分数。类似地，我们报告了[91]之后的抖动(或抖动)误差，以衡量生成视频中的时间平滑性。我们还提供了从生成的视频中预测的表达参数的标准差，以评估表情和凝视的多样性，因为语音到视频并不总是一对一的映射，并且生成真实视频的分布很重要。关于身体和手部运动的多样性，VLOGGER 是第一个考虑手势的模型，我们定性地评估这一点。

4.1 Ablation Study

我们在表 2 和表 3 中广泛消融我们的主要设计选择。表2总结了完整方法（最后一行）最具代表性的指标，每一行代表改变一个特征的效果（例如，在训练运动预测器时不使用时间损失）。表3验证了用于生成视频的 2d 控件的重要性。接下来我们将讨论结果。

运动生成。在表2的上半部分，我们展示了不使用时间损失而不是预测 Δ 时时间一致性的下降（参见第 3.1 节）。在预测身体运动的残差时，网络在平滑度和稳定性方面有所提高，导致整体图像质量更高。我们还展示了无分类器指导的积极使用（在 Sup 中讨论）。Mat.) 关于 LME 和 FID [25]。
在这里插入图片描述

视频生成。Tab2 的下半部分。消融时间视频生成模型的设计选择。首先，它验证了所提出的外画过程的有效性，它不仅支持可变长度视频生成，而且还保证了平滑度和低抖动。我们的最终模型在生成帧和给定帧之间有 50% 的重叠，并且在较大的值下趋于平稳，但在较小的重叠 (25%) 或没有外绘方面获得了显着的改进。该模型在身体姿势控制方面也表现更好。
在这里插入图片描述

2d控制在视频生成中的作用。最后，我们消融了用于指导 Tab3 中的视频生成过程的不同表示的重要性。通过将测试集样本与其groundtruth运动和报告图像重建指标进行交互。我们探索了 2d 地标、密集表示和我们最终提出的控制，它结合了从参考输入图像扭曲的密集身体表示和参考部分视图。后者显着简化了网络的任务，并产生了最好的结果。

此外，我们使用第 3 节中描述的训练计划（以及在 Sup 中）获得了额外的性能提升。Mat.)，首先在单个图像中进行训练，然后微调视频中的时间层。

4.2 Quantitative Results

说话头生成。表4 总结了 VLOGGER 与之前最先进的方法在音频驱动的视频生成任务上的性能。我们报告了 HDTF 数据集 [97] 的结果，这是一个大规模数据集，但身份数量较少（300）主题和视点变化有些有限，以及 TalkingHead-1KH 数据集 [79]。说话头生成是一项具有挑战性的任务，有几个理想的属性，由不同的指标评估。值得注意的是，图像质量、多样性之间存在权衡和身份保存。VLOGGER 接近真实视频中存在的表达多样性的数量，同时实现最高的图像质量和身份保存，StyleTalk [42] 之后的运动抖动第二低，引入了很少的面部运动（见图 4）。时间一致性验证了我们的时间层和外画过程的贡献，同时仍然利用了最先进的扩散模型的高质量图像生成能力。所有方法都获得了可比较的 Lip Sync 分数，并且对于评估的两个数据集上的所有指标的结果是一致的。我们还通过在每个主题中选择性能最佳的视频来评估我们的方法，从而在样本数量不断增加的情况下显着提高性能。这些支持 VLOGGER 的生成特性，显示了它能够为每个主题生成不同的样本。此外，请注意，这些只考虑人脸的图像，而我们的目标是对包括手在内的可见身体部位进行建模。虽然没有基线考虑身体或手势，但我们在表 2 和表 3 中在这方面消融了设计选择。在这里插入图片描述
在图 3 中，我们展示了公平性和泛化能力（部分原因是我们训练集的规模和多样性），通过与其他跨多个感知属性的方法。以前的工作对不同类别（例如光与深色皮肤、年轻与老等）表现出明显的性能下降，并且不能推广到具有可见躯干或手的视频。相比之下，VLOGGER 在所有评估轴上表现出相当低的偏差。我们希望MENTOR 的释放将使社区能够解决关键的公平问题并进一步推进最先进的技术。在这里插入图片描述

4.3 Qualitative Results

我们在图 4 中展示了针对野外图像的最新和高性能基线的定性结果。以前的大多数工作具有有限的生成能力，这使得很难生成在参考图像中被遮挡的部分（例如，如果牙齿被遮住嘴内部，它们将持续存在在生成的视频中）。相比之下，我们的模型能够生成更多样化的表达式并正确修复移动头的遮挡区域。在这里插入图片描述

样本多样性。由于VLOGGER是随机的，我们可以在给定相同的输入音频/文本的情况下生成多个运动和视频，如图5所示。从第一行可以看出，虽然背景几乎是静态的，但随着视频时间展开，人脸、头发、凝视和身体运动特征的变化量不断增加。在这里插入图片描述

视频编辑。同样，我们的扩散方法在视频编辑方面表现出能力。图 6 显示了通过关闭嘴（第二行）、眼睛（第三行）或保持受试者的眼睛打开（例如不闪烁（第三行）作为输入视频（顶行）的编辑示例，以时间连贯的方式。在这种情况下，我们在编辑人脸后，根据与地面真实图像不同的身体坐标自动生成修复掩码表达式，并使用该时间掩码根据新的目标控制重新生成像素。这个过程独立于视频的长度、到相机的距离或主题身份，我们希望这些结果可以导致创造性视频编辑的新应用。请参阅 Sup 中的视频。在这里插入图片描述

个性化。最近，扩散模型背景下的个性化已被广泛研究用于主题驱动的生成 [59]。在我们的例子中，VLOGGER 仅将单目输入图像作为合成的来源，虽然它可以产生合理的合成，但它无法访问被遮挡的部分和在对该人的精细晶粒分析下，生成的视频可能不是真实的。在图 7 中，我们表明，通过在受试者的单目视频上微调具有更多数据的扩散模型，VLOGGER 可以学习更好地捕获身份，例如当参考图像显示眼睛闭合时。在这里插入图片描述

5 Conclusion

我们提出了 VLOGGER，这是一种从单个输入图像（以音频或文本为条件）合成人体视频的方法，包括面部和身体。VLOGGER 被构建为基于控制扩散模型的时间扩展，基于 3d 人体头部和身体姿势表示的底层脚手架，生成可变长度的高质量动画。我们引入了多样化和大规模的数据集（比以前的数据集大一个数量级），并验证了 VLOGGER 在这和其他多个存储库上的性能，表明它在说话人脸生成任务上的表现优于之前的最新技术生成，并且我们的方法在不同的多样性轴上更加稳健。Sup.Mat。讨论局限性和社会影响。

没有硬件条件，需要云服务的同学可以扫码看看：
请添加图片描述