代码 https://audioldm.github.io/audioldm2/
1 摘要
虽然不同类型的音频(如语音、音乐和音效)在音频生成方面存在共性,但为每种类型设计模型时都需要仔细考虑特定的目标和偏差,这些目标和偏差可能与其他类型的目标和偏差有很大不同。为了让我们更接近统一的音频生成视角,本文提出了一个框架,利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法,称为 "音频语言"(LOA)。任何音频都可以根据 AudioMAE(一种自我监督的预训练表示学习模型)翻译成 LOA。在生成过程中,我们使用 GPT-2 模型将任何模态转化为 LOA,并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然会带来一些优势,如上下文学习能力和可重复使用的自监督预训练 AudioMAE 和潜扩散模型。在文本到音频、文本到音乐和文本到语音等主要基准上进行的实验表明,与以前的方法相比,我们的性能达到了最新水平或具有竞争力。
2 文章框架
1 介绍
2 AudioLDM 2模型
(3 实验设置、4 结果、5 相关工作)
6 结论
在本文中,我们提出了用于音频生成的 AudioLDM 2,并在文本到音频、文本到音乐以及文本到语音的生成任务中取得了最先进或可比较的性能。作为一种通用的音频表示法,我们提出的音频语言(LOA)可以对潜在扩散模型进行自监督预训练,从而为音频生成任务奠定坚实的基础。我们通过执行上下文学习和将 AudioLDM 2 扩展到图像到音频生成,进一步证明了我们提出的方法的多功能性。AudioLDM 2 从统一的角度为音频生成的未来工作打开了大门。未来的工作重点将是实现 GPT 模型的多任务学习,从而用单一模型同时生成音频、音乐和语音。
3 模型框架记录(简单理解为在条件C下用H来生成x)
x是一个实数序列,代表音频信号;Ls是音频样本的长度音频;生成过程可以用函数H来表示,其中C是条件信息,H是条件生成系统。条件C是灵活的,可以包括文本、图像、视频、功能磁共振成像等。直接生成音频x通常很具有挑战性,因为条件C与x之间存在较大的分布差异。为了解决这个问题,研究者们提出了利用语言化音频(LOA)Y = A(x)作为中间特征来弥合C和x之间差距的方法。其中,A是一个音频到LOA编码器,通过手工规则或自监督学习的方式生成抽象化的Y,代表x的语义信息。
整个生成过程公式表示如下
函数M是从任何模式到LOA的转化也就是转化成,这里的g是用LOA生成audio也就是x
= M(C) 代入上述公式 优化公式为
A为编码器,通过A将x转化成Y(LOA语言)(注意A为现成的AudioMAE模型)
通过第二个等式可以在没有音频标注的情况下以自监督的方式进行优化。
此模型又两个重要的函数分别是M和g。
g函数用来将LOA生成音频,用AudioMAE进行语义表征的学习,用LATENT DIFFUSION MODEL(右边部分)进行语义重构(注意这里在语义重构时模型采用了VAE去进行声音表征学习)
M函数用来进行将其他模式转换为LOA
在转换之前先做了处理例如CLAP是一种系统,通过学习语音和文本的共同嵌入空间,使得配对的语音和文本在该空间中更加接近。它可以作为一个条件模块用于音频生成任务,同时也可以适用于一些无文本标题的场景,例如语音到文本的生成。
在回到生成公式中就不难理解生成音频的整个过程了。