(2024,视觉-音频生成,多模态对齐器,ImageBind)视觉和听觉:使用扩散潜在对齐器的开放域视音频生成

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

2.1. 有条件音频生成

2.2. 有条件视觉生成

2.3. 多模态联合生成

3. 方法

3.1 基础

3.1.1 LDM

3.1.2 分类器引导

3.1.3 关联多模态

3.2. 扩散潜在对齐器

3.2.1 问题阐述

3.2.2 多模态引导

3.2.3 双/三角损失函数

3.2.4 引导提示调整

4. 实验

4.6. 限制


0. 摘要

视频和音频内容的创建是电影行业和专业用户的核心技术。最近,现有的基于扩散的方法分别处理视频和音频生成,这妨碍了从学术界到工业界的技术转移。在这项工作中,我们旨在填补这一空白,提出了一个经过精心设计的基于优化的框架,用于跨视觉-音频和联合视觉-音频生成。我们观察到现成的视频或音频生成模型具有强大的生成能力。因此,我们提出了在已有的强大模型之间建立共享潜在表示空间的方法,而不是从头开始训练庞大的模型。具体而言,我们提出了一个与预训练的 ImageBind 模型共享相似核心的多模态潜在对齐器。我们的潜在对齐器与分类器引导类似,在推断时指导扩散去噪过程。通过经过精心设计的优化策略和损失函数,我们展示了我们的方法在联合视频-音频生成、以视觉为导向的音频生成和以音频为导向的视觉生成任务上的卓越性能。

项目页面:https://yzxing87.github.io/Seeing-and-Hearing/

2. 相关工作

2.1. 有条件音频生成

音频生成是一个新兴领域,专注于建模多样化音频内容的创作。这包括生成基于各种输入的音频任务,如文本 [11, 16, 24, 25, 28, 44]、图像 [37] 和视频 [12, 26, 31, 39]。

在文本到音频研究领域,AudioGen [28] 提出了一种自回归生成模型,该模型在离散音频表示上操作,DiffSound [44] 利用非自回归的 token 解码器来解决自回归模型中单向生成的局限性。其他一些作品,如 Make-An-Audio [25]、AudioLDM [29],采用了用于音频生成的潜在扩散方法。一些最近的研究,如 Make-an-Audio2 [24]、AudioLDM2 [30]、TANGO [16],利用了大型语言模型(LLM)来提高音频生成模型的性能。

聚焦于在图像和视频条件下生成音频的音频生成研究,例如 Im2Wav [37] 和 SpecVQGAN [26],也在学术界引起了极大关注。Im2Wav [37] 利用预训练的 CLIP 模型(对比语言-图像预训练) [33] 的语义进行视觉表示,首先通过语言模型创建基础音频表示,然后使用附加的语言模型将这些音频 token 上采样为高保真音频样本。SpecVQGAN [26] 利用一个 transformer 从基于输入视频特征的预训练码书生成新的频谱图,然后使用预训练的声码器从这些频谱图重构波形。

2.2. 有条件视觉生成

文本到图像生成任务近年来取得了显著的发展和成就 [2, 35, 40],这促使了一个新的研究领域,即音频到图像生成。在 2019 年,[42] 提出了一种从音频录音中生成图像的方法,采用了生成对抗网络(GANs)。[47] 狭窄地专注于使用音频输入生成 MNIST 数字的图像,而没有扩展到从一般音频声音生成图像。相反,[42] 的方法能够从更广泛范围的音频信号生成图像。Wav2CLIP [43] 采用了受 CLIP 启发的方法,学习音频-图像对的联合表示,随后可以利用 VQ-GAN [13] 进行图像生成。文本到视频最近也取得了显著的进展 [1, 4, 7, 15, 19, 22, 23, 25, 48, 49],受视频扩散模型 [23] 的启发。主要思想是在 U-Net 架构中加入时间建模模块,以学习视频像素空间 [22, 23] 或潜在空间 [4, 19] 中的时间动态。在这项工作中,我们利用开源的基于潜在的文本到视频模型作为视频生成的基础模型。

还有一些已经完成的音频到视频的工作,如 Sound2sight [5]、TATS [14] 和 Tempotokens [45]。虽然 [5] 专注于以与音频相一致的方式扩展视频,Tempotokens [45] 采用了一种不同的方法,专门从音频输入中生成视频。TATS [14] 引入了一种创建与音频同步的视频的技术,尽管其具有显著的方面,但它所产生的视频的多样性受到显著限制。

2.3. 多模态联合生成

一些研究已经开始探索多模态联合生成的领域 [36, 50]。MM-Diffusion [36] 提出了首个用于同时生成音频和视频的框架,旨在协同增强视觉和听觉体验,使其更紧密和引人入胜。然而,它是无条件的,只能在训练集域内生成结果,这会限制生成的多样性。MovieFactory [50] 利用 ChatGPT 精心扩展用户输入文本为详细的连续剧脚本,用于生成电影,通过视觉生成和音频检索技术生动地实现。然而,MovieFactory 的一个显著限制在于其依赖于音频检索,限制了其生成更精细适应特定场景的音频的能力。

3. 方法

3.1 基础

3.1.1 LDM

(2022|CVPR,LDM)使用潜在扩散模型进行高分辨率图像合成

3.1.2 分类器引导

3.1.3 关联多模态

我们的目标是强制不同模态中生成的样本在一个联合语义空间中变得更加接近。为了实现这个目标,我们选择 ImageBind [17] 作为对齐器,因为它学习了多个模态的有效联合嵌入空间。ImageBind 学习了一个将图像、文本、视频、音频、深度和热度等多个不同模态绑定在一起的联合语义嵌入空间。给定一对具有不同模态(M1,M2)的数据,例如(视频,音频),相应模态的编码器 Ei 将数据作为输入并预测其嵌入 ei。ImageBind 使用对比学习目标进行训练,目标公式如下:

其中 τ 是温度因子,用于控制 Softmax 分布的平滑度,j 表示负样本,即另一对数据。通过将不同模态的样本投影到共享空间中的嵌入,最小化来自同一数据对的嵌入的距离,并最大化来自不同数据对的嵌入的距离,ImageBind 模型实现了语义对齐能力,因此可以作为多模态对齐的理想工具。

3.2. 扩散潜在对齐器

3.2.1 问题阐述

考虑两个模态 M1、M2,其中 M2 是条件模态,M1 是生成模态。给定一个生成 M1 数据的潜在扩散模型(LDM)θ,我们的目标是利用来自条件 x_M2 ∼ p(x_M2) 的信息,引导生成过程以生成所需的内容,即将中间生成的内容与输入条件对齐。为了实现这个目标,我们设计了一个扩散潜在对齐器,它引导中间噪声潜在朝着与条件在去噪过程中所描述的内容的目标方向对齐。 形式上,给定来自 LDM 的潜在变量序列 zt​,zt−1​,...,z0​,扩散潜在对齐器 A 在任意时间步 t 处取相应的潜在 zt​  以及引导条件 x_M2,并生成一个修改后的潜在 ^zt​,该潜在更好地与条件对齐。

对于联合视觉-音频生成,对齐器应同时从两个模态获取信息并为这些潜在变量提供引导信号:

在顺序去噪过程之后,我们的对齐器的目标是分别最小化

用于单向引导和同步的双向引导,其中 F 表示衡量两个模态样本对齐程度的距离函数。在这个过程中可更新的参数可以是潜在变量、嵌入向量或神经网络参数。

3.2.2 多模态引导

为了设计在第 3.2.1 节中阐述的这样一个潜在对齐器,我们提出了一个无需训练的解决方案,利用了一个用于表示学习的多模态模型,即 ImageBind [17] 的强大能力,为去噪过程提供理性引导。具体而言,给定每个时间步 t 的潜在变量 zt​,可以从 zt​ 和预测的噪声 ^ϵ 推导出预测的 z0​:

通过这样一个干净的预测,我们可以利用在正常数据上训练的外部模型,而无需在嘈杂数据上重新训练它们,就像分类器引导一样。我们将 z0​ 和引导条件输入 ImageBind 模型,计算它们在 ImageBind 嵌入空间中的距离。得到的距离可以作为一种惩罚,用于反向传播计算图,并在潜在变量 zt​ 上获得梯度:

然后,我们通过以下方式更新 zt​:

其中 λ1​ 作为每次优化步骤的学习率。通过这种方式,我们通过我们的多模态引导信号在每个时间步上改变采样轨迹,实现了音频到视觉和视觉到音频的生成。这个过程只需要少量额外的采样时间,无需任何额外的数据集和昂贵的网络训练。

3.2.3 双/三角损失函数

我们观察到音频通常缺乏足够的语义信息,例如一些音频是纯粹的背景音乐,而配对的视频包含丰富的语义信息,如多个对象和环境声音。使用这种类型的条件来引导视觉生成是不够的,可能会提供无用的引导信息。为了解决这个问题,我们引入另一种模态,例如文本,以提供一个综合的度量,如下:

其中,ev​, ea​ 和 ep​ 是在ImageBind多模态空间中的相应嵌入(这里的 p 应该是文本提示 prompt)。F 表示两个嵌入向量之间的距离函数,是 1 减它们的余弦相似度(结合公式 12,为什么不直接用余弦相似度作为 L?)。类似地,V2A 的损失可以写作

对于视觉-音频联合生成,损失变成了一个三角形:

用户可以通过输入文本提供文本输入,以提供用户引导的交互系统,或者可以通过音频字幕模型提取文本。如前所述,音频往往呈现不完整的语义信息。因此,提取的字幕应该比实际文本差。然而,我们在经验上发现我们的方法有助于纠正这些语义错误,并提高语义对齐度。

3.2.4 引导提示调整

使用上述的多模态潜在引导,我们成功地实现了良好的生成质量和对视觉到音频生成的更好内容对齐。然而,我们观察到当将这种方法应用于音频到视觉生成时,引导效果可忽略不计。同时,当利用音频生成相应的音频时,由于每帧的梯度没有确保时间一致性,生成的视频变得缺乏时间上的一致性。因此,为了解决这个问题,我们进一步提出了引导提示调整,通过优化生成模型的输入文本嵌入向量,其公式如下:

这里,λ2​ 表示提示嵌入的学习率。具体而言,在预测噪声的开始时分离提示文本嵌入,并在从文本嵌入到多模态损失的计算中保留计算图。然后,我们反向传播计算图以获得提示嵌入相对于多模态损失的梯度。更新后的嵌入在所有时间步上共享,以提供一致的语义引导信息。

4. 实验

为了在这些方面进行定量评估,我们使用 MKL 指标 [26] 用于音频-视频相关性,Inception Score (ISc),Frechet 距离 (FD),以及 Frechet 音频距离 (Frechet audio distance,FAD) 用于音频保真度评估。 

Ours-Vanilla。我们使用现有工具的组合,设计了几个我们任务的基准模型。对于音频到视频的任务,我们提取关键帧 [27] 并使用预训练的图像标题模型 [3] 获取视频的标题(caption)。然后,我们使用 AudioLDM 模型,使用提取的标题来生成音频。对于视频到音频的任务,我们使用音频标题模型,并将提取的标题输入 AnimateDiff 以生成输入音频的视频。对于联合音频和视频生成任务,我们直接将测试提示作为输入传递给 AudioLDM 模型和 AnimateDiff 模型,以组合联合生成的结果。 

4.6. 限制

我们的性能受到所采用的基础生成模型(即 AudioLDM 和 AnimateDiff)的生成能力的限制。例如,对于我们建立在 AnimateDiff 上的 A2V 和 Joint VA 任务,未来可以改进视觉质量、复杂概念组合和复杂动作。值得注意的是,我们方法的灵活性允许在未来采用更强大的生成模型,以进一步提高性能。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值