【MM-Diffusion】【论文翻译】用于音频视频联合生成的多模态扩散模型

摘要

我们提出了第一个联合音频-视频生成框架,该框架同时带来了引人入胜的观看和收听体验,实现了高质量的逼真视频。
为了生成联合音视频对,我们提出了一种新的多模态扩散模型(即MM扩散)两个耦合的去噪自编码器。与现有的单峰扩散模型相比,MM扩散由以下部分组成设计了一种用于联合去噪过程的顺序多模态U-Net。两个子网用于音频和视频学习从高斯噪声中逐渐生成对齐的音频-视频对。为了确保跨模态的语义一致性,我们提出了一种新的基于随机移位的注意力块桥接两个子网,实现高效的交叉模态对齐,从而增强彼此的音视频保真度。广泛的实验表明,在无条件音频视频生成方面取得了优异的效果零样本条件任务(例如,视频到音频)。特别是,我们在景观和景观方面实现了最佳的FVD和FADAIST++舞蹈数据集。进一步进行1万张选票的图灵测试展示对我们模型的主要偏好。代码和预训练模型:https://github.com/researchmm/MM-Diffusion

1.介绍

近年来,在图像、视频和音频领域引起了广泛关注。例如,DALL·E 2[34]和DiffWave[20]可以分别创建生动的艺术图像和产生高保真音频。然而,这种生成的内容只能在视觉或听觉上提供单模态体验。网络上大量的人为内容仍然存在很大差距,这些内容通常涉及多模态内容,可以为人类提供视觉和听觉感知的引人入胜的体验研究一种新型多模态的自然进步生成任务,特别关注联合音视频在开放域中生成。
生成模型的最新进展是通过使用扩散模型[15,41]来实现。从任务级的角度来看,这些模型可分为两类:无条件扩散模型和条件扩散模型。In特定的无条件扩散模型生成图像以及通过将从高斯分布采样的噪声[15]作为输入来生成视频。条件模型通常导入采样噪声与嵌入特征相结合一种模态并生成另一种模态作为输出,例如文本到图像[31,34,38],文本到视频[14,40],音频到视频[54]等。然而,大多数现有的扩散模型只能生成单模态内容。如何利用扩散模型进行多模态生成仍然很少被探索。
设计多模态扩散模型的挑战主要在于以下两个方面。首先,视频和音频是两种不同的形式,具有不同的数据模式。特别是,视频通常以3D表示指示两个空间中的RGB值的信号(即高度×而音频在时间维度上是1D波形数字。如何处理它们在一个联合扩散模型中并行保持问题。其次,在真实视频中,视频和音频在时间维度上是同步的,这要求模型能够捕捉到这两种模式之间的相关性并鼓励他们相互影响。
为了解决上述挑战,我们提出了第一个由两个耦合的关节去噪自编码器组成的多模态扩散模型(即MM扩散)音频-视频生成。每个样本的噪声较小时间步长t-1处的模态(如音频)由下式生成
在时间步长t隐式地对两种模态(音频和视频)的输出进行去噪。这种设计能够实现联合两种模式的分布有待学习。进一步学习语义同步性,我们提出了一种小说跨模态注意力块,确保生成的视频帧和音频片段可以在每个时刻进行关联。我们设计了一种高效的随机移位机制在给定的视频帧和在相邻时段中随机采样的音频段,这大大减少了视频中的时间冗余音频,并有效地促进跨模态交互。
为了验证所提出的MM扩散模型,我们在Landscape数据集上进行了广泛的实验[22],以及AIST++舞蹈数据集[23]。评估结果超过SOTA特定模态(视频或音频)无条件生成模型显示了我们模型的优越性
到2020年,视觉和音频增益分别为25.0%和32.9%FVD和FAD分别基于Landscape数据集。在AIST++数据集中也可以观察到卓越的性能[23],FVD和FVD分别大幅增长56.7%和37.7%
FAD分别优于之前的SOTA。我们进一步为我们的模型演示零样本条件生成的能力,而无需任何任务驱动的微调。此外,10k票的图灵测试进一步验证了我们的结果对普通用户的高保真性能。

2.相关工作

扩散概率模型。

扩散概率模型(DPMs)[15,41]是一种新型的生成模型
取得了令人瞩目的成果。它们由以下部分组成正向过程(将信号映射到噪声)和反向过程过程(将噪声映射到信号)。这进一步证明DPM的正向和反向过程可以通过以下方式完成求解微分方程[43]。他们通常表演在训练期间重新加权目标会更好[15]。In在发电质量和多样性方面,DPMs具有
通过适当设计去噪模型,其性能优于其他生成模型[5]。它表明DPMs可以在几个图像生成任务中表现良好,例如图像修复[29],超分辨率[33,39,51],图像恢复[18]、图像到图像的翻译[37]等。由于DPMs的特性,可以推断去噪模型重复数百次,其采样速度与其他生成模型(如如GAN[10]和VAE[19]。为了使DPMs更加在实际应用中,已经提出了许多方法。去噪扩散隐式模型[42]首次提出了一种方法
通过DPM以隐式方式进行采样并加速采样速度。DPM求解器[27,28]求解了DPMs逆过程的常微分方程
[43],给出了这些方程的高阶近似解,并得到了高质量的结果,只有大约10-20个评价。 Stable Diffusion[35]在潜在的DPMs上构建DPMs以减少像素数量。随着随着DPMs理论的探索和完善在多个领域应用扩散模型变得越来越流行。

多模态生成

多模式生成例如文本到视觉[7,12,30,31,40],文本到音频[21],音频到视频[4,8,13],视频到音频[4,6,13,53,54],视觉传递[17,24,25,47-49,52]已经取得了巨大的成功注意。在音频到视频生成方面,Sound2Sight[3]首次提出了一种生成从音频中对齐视频。TATS[8]提出了一种时间敏感变压器,将音频潜在嵌入投影到视频嵌入并实现了SOTA结果。对于视听生成,CMT[6]模拟了音乐节奏和
提出了一种使用可控音乐变换器生成与给定视频相对应的背景音乐的方法。CDCD[54]应用了DPMs,并提出了对比扩散损失,以改善生成的音频和给定视频的对齐。对于双向条件生成,Chen等人[4]首先提出了2个单独的用于音频到图像和图像到音频生成的框架。CMCGAN[13]进一步将音频图像双向传输与统一框架相结合,并证明了它是比单独的框架更好。然而,之前的工作一次只能生成一种模态,而我们的工作可以同时生成两种模式

3.方法

本节介绍我们提出的新型多模态用于真实音视频联合生成的扩散模型(即MM扩散)。在深入具体设计之前,我们首先简要回顾一下扩散的初步知识第3.1节中的模型。然后,我们通过进一步发展vanilla扩散模型来介绍所提出的MMDiffusion以在第3.2节中实现语义一致的多模态生成。随后,我们展示了一个耦合的U-Net基于设计的音视频数据联合建模体系结构见第3.3节。在第3.4节中,我们最后讨论了我们的模型在零样本条件多模态生成(即音频到视频和视频到音频)的生成能力方式。
3.1. 扩散初探
基于扩散的模型[15,41]是指一类生成算法,首先传输给定的数据分布x转换为非结构化噪声(实践中为高斯噪声),以及进一步学习通过反转来恢复数据分布上述前进过程。原始转发流程去噪扩散概率模型(DDPM)[15]在离散的T时间步长内执行。将x0定义为X的样本,xT作为符合标准的样本高斯分布,与x0无关,使用马尔可夫正演过程,可以表示如下:
在这里插入图片描述
其中t∈[1,t],和β0,β1。。。,βT是预定义的方差时间表顺序。我们遵循之前的工作[15,43]和
使用线性噪声调度来增加βt。为了恢复原始图像,学习反转正向过程可以简化为训练模型θ以进行拟合
pθ(xt−1|xt),对于所有情况近似为q(xt-1 |xt,x0)给定t和xt。因此,可以制定相反的过程
如方程3所示,x0可以从概率图2中恢复。多模态去噪扩散过程的说明。正向扩散(虚线箭头)将音频和视频数据映射到而逆过程(实线箭头)通过统一的模型θav逐渐重建多模态内容。
密度p(xT)与方程式4的关系如下:
在这里插入图片描述
在这里插入图片描述
其中µθ表示由θ预测的高斯平均值。最后,可以得到x0。在实践中,我们删除方差预测,因为它只会带来微小的改进[1,32]。我们在下面也省略了这个术语。

3.2. 多模态扩散模型

定义了扩散的正向和反向过程以上,我们在本节中进一步介绍了所提出的MM扩散公式。如图2所示,不同从生成单个模态的扩散中,我们的目标是恢复两个一致的模态(即。音频和视频)在一个扩散过程中。给定来自1D音频集a(a∈a)的成对数据(a,对于3D视频集V(V∈V),我们认为正向
每种模态的过程都是独立的,因为它们是在不同的分布中。以音频a为例,
其在时间步骤t的正向过程定义为:
在这里插入图片描述
为简单起见,我们省略了视频v的正向过程,因为它们具有相似的公式。我们可以使用方程式2进一步计算任何at,vt。值得注意的是,我们经验地为超参数β设置共享时间表跨音频和视频,以简化过程定义。与模拟音频的正向过程不同与视频独立,两者之间的相关性在逆向过程中应考虑模式。因此,不是直接拟合q(at-1|at,a0)以及q(vt-1|vt,v0),我们提出了一个统一的模型θav这两种模式都作为输入,并相互增强音频和视频生成质量。特别是在给定的时间内步骤t,逆过程pθav
(at−1|(at,vt))音频域中at-1的公式如下:
在这里插入图片描述
在这里插入图片描述
图3。所提出的MM扩散框架概述。耦合U-Net包含耦合的音频和视频流(由表示在(a)中的每个去噪扩散步骤中,分别使用红色、绿色和蓝色块。每个MM块通过1D扩展音频对音频和视频进行编码
如(b)中的卷积和2D+1D时空视觉卷积。一种高效的基于随机移位的多模态注意力模块是
在(c)中进一步提出,以促进特定的模态间对齐并避免冗余计算。

其中,at-1是由高斯分布共同生成的由at和vt共同决定。为了优化整个网络,我们使用了-预测,其定义为:
在这里插入图片描述

其中t∈[0,t],λt是一个可选的加权函数。我们省略了视频公式,因为它们与音频具有相似的表示。
多模态生成的核心优势在于实现联合重建的统一模型θav来自独立高斯分布的音频-视频对。
我们设计的模型MM Diffusion能够适应这两种输入方式具有完全不同的形状和模式。

3.3. 用于联合音视频去噪的U-Net

之前的工作[5,15,20,35]已经证明了使用U-Nets作为模型架构的有效性生成单一模态(例如,图像的2D U-Net[5,15]用于音频生成的1D U-Net[20]。受这些工作的启发,我们提出了一种耦合的U-Net(如图所示如图3(a)所示,它由两个单模态U型网组成用于音频和视频生成。特别是,我们制定将音频和视频作为张量对(a,v)∈(a,v)输入。另一方面,a∈RC×T指音频输入,其中C和T分别是通道和时间维度。On另一个,v∈RF×C×H×W为视频输入,其中F、 C、H和W是帧号、通道、高度和宽度尺寸。高效的多模态模块。如图3(b)所示,对于视频子网设计,为了有效地对空间和时间信息进行建模,我们遵循Jonathan等人的研究[16]以分解空间和时间维度。具体来说,我们将1D卷积和2D卷积叠加作为视频编码器,而不是使用繁重的3D卷积。同样,视频注意力模块也由以下部分组成2D和1D注意力。与视频不同,音频
信号是一个1D长序列,对长期依赖性建模的要求更高。因此,我们有两个特别音频块的设计。首先,受孔[20]的启发,我们堆叠扩张的卷积层,而不是采用纯1D卷积。膨胀从1倍增加到2倍
N,其中N是一个超参数。其次,我们删除了音频块中的所有时间注意力,这些注意力计算量很大
并在我们的初步实验中显示出有限的效果。之前的研究[14,20]也得出了类似的结论。

基于随机移位的多模态注意力

音频和视频的两个子网络,以及联合了解它们的排列方式,最直接的方法是对他们的特征进行交叉关注。然而这两种模式的原始注意力图也是计算量巨大,计算复杂度为O((F×H×W)×T)。同时,视频和音频都是时间冗余的,这意味着并非所有的跨模态注意力计算是必要的。为了解决上述问题,我们提出了一种多模态基于随机移位的注意力机制如图3(c)所示,使用掩模以高效的方式对齐视频和音频(表示为RS-MMA)。具体来说,给定l耦合U-Nets的第n层,其输出为形状{H1,Wl,Cl,Tl},具有F的3D视频输入张量v帧由F×Hl×Wl补丁表示,1D音频输入张量用C表示l×T字母 l(英语字母表中的第十二个字母).为了更好地对齐视频帧和音频信号,我们提出了一种随机转移注意力方案,其步骤如下:
第一步:我们首先将音频流分割成片段{a1,a2,…aF}沿着视频帧的时间步长,其中
每段ai形状为C字母 l(英语字母表中的第十二个字母)T字母 l(英语字母表中的第十二个字母
第二步:我们设置一个小得多的窗口大小S
并且设置随机移位数R∈[0,F−S]。从音频到视频的注意力权重为在从帧fs到帧fe的每个音频段ai和视频段vj之间计算,其中fs=(i+R)%F和fe=(i+R+S)%F。
第三步:音频段ai和采样视频段vj=vfs:fe的交叉关注
公式如下:
在这里插入图片描述
其中dk是K的维数。我们省略了MMA(vj,ai),因为从视频到音频的交叉注意力是对称的。
这种注意力机制有两个优点。第一,通过使用这样的设计,计算复杂度可以
还原为O((S×H×W)×(S×TF)). 其次,该设计在邻近时期内保持了全球注意力。由于多模态扩散允许从步骤T迭代到步骤0,因此视频和音频可以在反向过程中完全相互交互。在实践中,我们在U-Net的顶部设置了一个较小的S来捕获细粒度对应,底部有一个较大的SU-Net捕获高级语义对应
以一种适应性的方式。实验中描述了详细的设置。

3.4. 零样本转移到条件生成

尽管MM扩散模型是为无条件生成音视频对而训练的,但它也可以被利用用于以零样本传输方式进行条件生成(即音频到视频或视频到音频)。因为模型已经了解了这两种模式之间的相关性,一个强大的零样本条件生成性能可以有助于验证MMDiffusion的卓越建模能力。在实践中受视频扩散[16]的启发,我们采用两种方法进行条件生成,包括基于替换的方法和改进的梯度引导方法。对于基于替换的方法,生成音频a由视频v调节,即a∼pθav(a|v),我们替换v来自逆过程pθav(at|(at+1,vt+1))与每个扩散步骤t的正向过程q(ˆvt+1|v)中的样本进行比较。可以进行类似的操作来生成视频到音频。然而,基于替换的方法预测来自等式处的目标音频分布(at |(at+1,vˆt+1)),而原始的v可以直观地提供更强的条件指导被忽视了。因此,我们添加以下内容将其重新表述为梯度引导法:
在这里插入图片描述
这个公式也类似于无分类器条件第[26]代,其中λ起梯度的作用重量来控制调理的强度。这个主要区别在于传统的条件生成模型通常需要明确的训练来适应这种情况数据。因此,他们对采样程序的更新过程不需要改变条件。相反,为了适应无条件训练过程、有条件输入我们的梯度引导方法需要不断替换
随着反向过程的进行。因此,我们没有需要额外的培训来适应有条件的输入显示出显著的优点。

4.实验

在本节中,我们评估了所提出的MM扩散模型,并比较其联合音频和视频生成SOTA生成模型的性能。可视化结果可以在图4中找到,更多结果可以在打开的该领域可以在补充材料中找到。

4.1. 实施细节

扩散模型。
为了进行公平的比较,我们遵循之前的工作[27,28],使用线性噪声表和第3.1节中所有实验的噪声预测目标。扩散步骤T被设置为1000。为了加速采样,我们使用DPM求解器[27]作为默认采样方法
除非另有规定。模型架构。我们的整个管道包含一个耦合的U-Net,用于生成16×3×64×64的视频和音频1×25,600的分辨率,以及将图像从64缩放到256的超分辨率模型。对于基本耦合的U-Net,我们设置4个MM块标尺,每个标尺由2个法线堆叠MM块和1个向下/向上样品块。仅在U-Net上[2,3,4]量表、视频注意力和跨模态注意力以及用于跨模态注意的窗口大小[1,4,8]对应于每个刻度。整个模型包含115.13M参数。对于SR模型,我们遵循ADM的结构和设置[5]参数为311.03M。模型架构的所有细节
培训配置可参考补充资料。评价。为了保持一致性,我们随机生成每个模型在客观评估中有2048个样本。为了公平比较,所有方法的度量都是以64×64分辨率计算的。在第4.4节的主要结果中,为了减少随机性,我们平均计算了6次运行。对于第4.5节中的消融研究,我们采集了2048个样本从底部耦合U-Net以提高效率。

4.2. 数据集

关于视频或音频生成的工作主要集中在一种模态上。现有的视频数据集存在音频质量低、音频缺失和视觉音频管理不善等问题(例如,UCF101[44]中缺少半音频)。为了促进多模态生成并与不同方法行广泛比较,我们进行了两个高质量视频音频数据集的实验不同类型:景观[22]和AIST++[23]Landscape数据集是一个高保真的音视频数据集与自然景观。我们从以下位置抓取928个源视频Youtube提供的网址[22],然后分成1000个10秒的非重叠剪辑。300K帧的总持续时间约为2.7小时。景观数据集包含9个不同的场景,包括爆炸、火灾破裂、下雨、泼水、挤水、雷声、水下打嗝、瀑布打嗝和风噪。AIST++[23]是AIST数据集[45]的一个子集,其中包含60个版权已获许可的街舞视频
歌曲。该数据集包括1020个5.2小时的视频片段总共约560K帧的持续时间。生成清晰字符,我们统一裁剪出1024×1024的图片来自视频中心的所有训练方法。

4.3. 评估指标

客观评价。我们分别测量生成的音频和视频的质量,以进行客观评估。对于视频,我们遵循之前的设置[8,50]使用Frechet视频距离(FVD)和核视频距离(KVD),并使用预先训练的I3D[2]分类器
Kinetics-400[2]。对于音频评估,以前的工作无条件音频生成倾向于在特定域中生成音频(例如用于口语数字的SC09[46])。他们基于专门训练的音频分类器的评估指标不适合我们在
开放领域[36]。受FID图像评估的启发对于视频评估的FVD,我们建议计算一个特征之间的相似Frechet音频距离(FAD)生成的音频和地面实况音频(所有FAD编号需要乘以1e4)。我们选择AudioCLIP[11],
在这里插入图片描述
在环境声音分类任务中实现SOTA的预训练音频模型,作为音频特征提取器。主观评价。我们还对以下内容进行用户研究亚马逊Mechanical Turk将测量质量和生成的音频-视频对的相关性。具体而言,为每个音视频对,形成三个任务进行测量音频、视频的质量和相关性一对。对于每项任务,我们要求用户分配以下分数从1(差)到5(好)。我们把分数平均作为决赛即平均意见得分(MOS)。此外,我们对我们生成的音频-视频对进行图灵测试模型和地面实况数据。我们把它们混在一起问用户判断它们是否生成。

4.4. 与SOTA方法的客观比较

评估由生成的音频和视频的质量
MM扩散,我们将其与SOTA无条件扩散进行比较视频生成方法DIGAN[50]、TATS[8]和音频生成方法Diffwave[20]。请注意,我们选择这些基线被广泛使用并已发布在我们的数据集上进行标准替换的官方代码库。进一步探讨联合学习在MM扩散,为了与具有相同骨干的单模生成进行公平的比较,我们将耦合的U-Net分解为音频子网络(Our-sa)以及独立于模态的视频子网(Ours-v)
在这里插入图片描述
一代。Landscape和AIST++的结果如下如表1和表2所示。从这两个表中,我们可以得出以下结论:(1)我们的模型明显优于SOTA视频和音频的单模态生成方法一代。特别是,我们的模型提升了SOTA FAD走向地面真实质量。它证明了所提出的MM扩散和耦合U-Net的有效性。2.我们仅使用视频生成的模型(Ours-v)甚至在大多数情况下优于SOTA方法DIGAN和TATS两个表中的指标(比较#5、#2和#3)。这个表明基于扩散的方法可以提高与传统方法相比,生成的视频质量。(3) 通过将我们的完整设置(#7)与一个流进行比较U-Net(Ours-v和Ours-a),我们可以看到,联合学习跨模态对齐的耦合UNets为视频和音频生成带来了进一步的好处。此外,完整的采样策略(#8)将获得比Dpm求解器质量更好的样本。

4.5. 消融研究

基于随机移位的多模态注意力。我们有证明了我们提出的基于随机移位的多模态注意力机制(RS-MMA)的有效性见第4.4节。我们还进行了两次消融实验,以探索不同的窗口大小和消融的有效性随机移位机制。(1) 不同的窗户尺寸。我们首先设置不同的窗口大小来缩放耦合U-Net的[2,3,4]。所有实验都是用80K步训练的以节省成本,结果如表3所示。从前三行,我们可以看到更大的窗口尺寸带来了更多的改进。自适应的最佳性能根据U-Net中的通道比例显示窗口大小这种高效设计的有效性,特别是对于提高视频生成质量。(2) 随机移位机制。表4显示了是否使用随机训练期间轮班(RS)。通过比较,我们可以发现RS有助于生成质量更好的音频,与无偏移相比,音频的收敛性也更高加速。这也表明,我们提出的RSMMA鼓励更有效的联合跨模态学习。同时,我们可以看到使用RS在音频质量方面的改善更为显著。因为视频外观可以为其配对的音频提供更多信息,与音频对配对视频的影响相比。零样本条件生成。我们验证了这两种方法的有效性零样本转移和发现两者都可以使用视频生成高质量的音频作为条件。对于基于音频的视频生成,
在这里插入图片描述
梯度引导方法比替换方法更好地获得语义一致的视频与给定音频时间对齐。结果还显示我们的模型甚至具有情态转换的能力没有额外的训练。图5说明了我们的模型可以从音频中生成类似场景(海)的视频或者生成与节奏相匹配的音频输入舞蹈视频。这进一步证实了我们联合学习可以增强单模态生成。

4.6. 用户研究

与其他方法的比较。因为我们是第一个联合生成音视频对,没有直接的基线可供比较。因此,我们选择了一个两级管道使用现有的单模态模型。特别是,我们采用噪声音频视频顺序作为管道。具体来说,我们利用Diffwave[20]进行无条件音频生成,利用TATS[8]将音频传输到视频。对于每个数据集,我们从模型、基线和地面实况数据中随机抽取了1500对音频视频对,每个有500个样本。正如我们在第4.3节中解释的那样,每个这对被分为3个任务。每项任务分配给5人用户。因此,我们总共有9000个任务的45000张选票。从表5的结果可以看出我们的方法在两个数据集上生成的音频-视频对比两阶段基线方法好得多,我们的结果与地面实况数据的差距要小得多。
为了评估我们生成的视频的真实性,我们进一步进行图灵测试。对于每个数据集,我们随机从我们生成的结果中采样了500对音频-视频对以及地面真实数据。每个样本分配给5个用户,我们总共有1万张选票。从结果如表6所示,我们可以看到Landscape中超过80%的生成声音视频可以成功作弊主题。即使在AIST++中
在这里插入图片描述
图5。零样本转换为条件生成生成的几个随机选择示例的说明。我们采用梯度引导法以获得更好的结果。部分人很难很好地产生。此测试为高质量和真实性提供了强有力的验证我们为普通用户生成的声音视频。

5.结论

在本文中,我们提出了MM扩散,这是一种用于联合音频和视频生成的新型多模态扩散模型。我们的工作推动了当前基于内容的生成单模态扩散模型向前迈进了一步,以及所提出的MM扩散可以生成逼真的音频以联合方式播放视频。卓越的性能是通过客观评估和图灵测试,在广泛使用的音视频基准测试中实现了这一目标,这可以归因于多模态扩散的新公式,以及设计耦合U-Net。将来,我们将添加文本提示引导音频视频生成,使其成为更用户友好的界面,并进一步开发各种视频编辑
通过多模态扩散模型的技术(例如,视频修复、背景音乐合成)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值