【扩散模型】【文本到音频论文系列翻译二】使用指令微调LLM和潜在扩散模型的文本到音频生成

本文链接：https://blog.csdn.net/weixin_43509698/article/details/133971706

🔥 🔥🔥
github: https://github.com/declare-lab/tango
效果：https://tango-web.github.io/
论文地址：https://arxiv.org/pdf/2304.13731.pdf
数据集audiocaps下载： https://blog.csdn.net/weixin_43509698/article/details/131406337
任务描述： 文本输入生成音频，例如输入A bird is whistling.，结果会输出一只小鸟在鸣叫的声音
训练心得： audiocaps下载完成后需要按data下的json文件将音频文件的名称修改为json中的名字，即 YouTube_ID ，将音频文件采样成单通道的16KHz的文件，并根据实际修改json文件。
在这里插入图片描述

文生音频的模型架构图：
在这里插入图片描述

摘要

最近的大型语言型(LLM)允许许多有趣的属性，例如，基于指令和思想链的微调，这在许多自然语言处理(NLP)任务中显著提高了零样本和少样本(Zero-Shot和Few-Shot)性能。受这些成功的启发 ,我们采用了这样一个指令调优的LLM FLAN-T5 作为文本到音频(T T A)生成的文本编码器，该任务的目标是从文本描述生成音频。先前在TT A 上的工作要么预先训练一个联合文本-音频编码器，要么使用非指令调优模型，如T5。因此，我们基于潜在扩散模型(LDM)的方法 (TANGO 在大多
数指标上优于最先进的 AudioLDM，并且在 AudioCaps 测试集上保持可比性，尽管在小 63 倍的数据集上训练LDM并保持文本编码器冻结。这种改进也可能归因于在训练集中采用了基于音频压力的增强，而之前的方法采用随机混合。

1 介绍

随着文本到图像 (TTI )自动生成的成功 [31-33]，许多研究人员采用与前者类似的技术，也成功地进行了文本到音频 (TT A )生成[17,18, 43]。这样的模型在媒体制作中可能有很强的潜在价值，因为创作者总是在寻找适合他们创作的新颖声音。这在原型制作或小规模项目中尤其有用，因为制作精确的声音可能是不可行的。除此之外，这些技术还为通用的多模态 A I 铺平了道路，可以同时识别和生成多种模态。
为此，现有的作品使用了大型文本编码器，例如， RoBERTa[ 19]和 T5[3 0]，对要生成的音频的文本描述进行编码。随后，大型变压器解码器或扩散模型生成音频先验，随后由预训练的 VAE 解码，然后是声码器。相反，我们假设用指令调优的大型语言模型 (L L M)替换文本编码器将提高文本理解和整体音频生成，而无需任何微调，因为它最近发现了梯度下降模仿特性[4]。为了增强训练样本，现有的方法采用随机生成的音频对组合，以及它们的描述的串联。这样的混合并没有考虑到源音频的整体压力水平，可能会导致更大声的音频压倒更安静的音频。因此，我们采用了Tokoz um e 等人 [3 9]建议的基于压力水平的混合方法
我们的模型 (TA N G O )受到 1 潜在扩散模型 (L D M)[3 3]和 Au dioL D M[ 18]模型的启发。然而，我们没有使用基于CLAP 的嵌入，而是使用了大型语言模型 (LL M)，因为它具有强大的表征能力和微调机制，可以帮助学习文本描述中的复杂概念。我们的实验结果表明，使用 LL M 大大提高了文本到音频的生成，并且优于最先进的模型，即使在使用显着较小的数据集时也是如此。在图像生成文献中，之前已经有撒哈拉等人研究过 LL M 的效果。然而，他们认为 T5 是文本编码器，它没有在基于指令的数据集上进行预训练。 FL A N-T5[3]使用 T5 检查点初始化，并在 1.8 K NL P 任务的数据集上进行指令和思维链推理的微调。通过利用基于指令的调优， FL A N-T5 在几个 N LP 任务上实现了最先进的性能，与具有数十亿参数的 llm 的性能相匹配。
在第 3 节中，我们通过经验证明，尽管 L D M 在小 63 倍的数据集上进行训练，但 T A N G O 在Au dioCa ps 测试集的大多数指标上都优于 Audio L D M 和其他基线方法。我们相信，如果 TA N G O在更大的数据集 (如 AudioSet )上进行训练 (如 Liu et al.[18]所做的)，它将能够提供更好的结果，并提高其识别更广泛声音的能力。

本文的总体贡献有三个方面:
1.我们不使用任何联合文本 -音频编码器 (如 CLAP)作为指导。Liu 等人 [18]声称，为了获得更好的表现，在训练过程中基于 CLAP 的音频指导是必要的。在训练和推理中，我们使用了一个冻结指令调整的预训练 LLM FLA N-T 5，它具有很强的文本表示能力，用于文本指导。
2.A udioL D M 需要微调 RoBE RT a[1 9]文本编码器来预训练 CL AP。然而，我们在 L DM 训练期间保持 FLA N-T5 文本编码器冻结。因此，我们发现 L D M 本身能够从一个比 A udioL D M 小 63 倍的训练集中学习文本到音频的概念映射和组合，给定一个指令调谐的 LL M。
3.为了混合音频对以增强数据，受 Toko zu m e 等人的启发，我们考虑音频对的压力水平，而不是像 AudioL D M 这样的随机组合。这确保了融合音频中两个源音频的良好表示。

2 方法

如图 1 所示， TANGO 有三个主要组成部分:1)文本编码器， 2)潜在扩散模型( LDM )，以及3) and iii) mel-spectogram/audio VAE。文本编码器对音频的输入描述进行编码。随后，使用文本表示从标准高斯噪声中构建音频或音频先验的潜在表示，使用反向扩散。然后， mel-spectogram VAE 解码器根据潜在音频表示构建 mel-spectogram。该梅尔谱图被馈送到声码器以生成最终的音频。
在这里插入图片描述

2.1 文本提示编码器

我们使用预训练的 LLM FL A N-T5 -L A R G E(780 M )[3] 作为文本编码器 (E) ，得到 t ex t 文本编码τ∈ RL× d，其中 L 和 dtext分别为令牌计数和令牌嵌入大小。由于在大规模思维链 (CoT)和基于指令的数据集上对 FL A N -T 5 模型进行了预训练，Dai 等人[[4] ]假设它们能够通过注意力权重模拟梯度下降，从上下文信息中很好地学习新任务。这一特性在较老的大型模型中是缺失的，例如RoB ER T a [ 19] ( Liu 等人使用的 [18] )和 T5 [3 0] ( Kr euk 等人使用的[17])。考虑到每个输入样本都是一个不同的任务，我们可以合理地假设梯度下降模拟特性在不微调文本编码器的情况下，在学习文本和声学概念之间的映射方面可能是关键的。更丰富的预训练也可能允许编码器以更少的噪声和丰富的上下文更好地强调关键细节。这再次可能导致将相关的文本概念更好地转化为声学对应物。因此，我们将文本编码器保持冻结状态，假设随后的反向扩散过程 (参见第 2.2 节 )能够在构建之前很好地学习音频的模态间映射。我们还怀疑微调可能会降低其上下文学习 text能力，因为音频模态的梯度不在预训练数据集的分布范围内。这与 Liu 等人的[18]形成对比，他们对预训练的文本编码器进行微调，将其作为文本 -音频联合表示学习(CL AP )的一部分，以允许从文本中预先重建音频。在第 3 节中，我们通过经验证明，这种联合表示学习对于文本到音频的转换可能不是必需的。

2.2 文本引导生成的潜在扩散模型

潜在扩散模型 (L D M)[33]改编自 Liu 等人的 [18]，目的是在文本编码 τ 的指导下构建音频先验 z0 (见第 2.5节)。这本质上简化为用参数化的 pθ (z0|τ )近似真实先验 q(z0 |τ )。LD M 可以通过正向和反向扩散过程来实现上述功能。正向扩散是一个预定噪声参数为 0 <1 2 β<
β<···< β<N 1 的高斯分布的马尔可夫链到 z0 的样本噪声版本
在这里插入图片描述

用 U- N et[34]对噪声估计 θ 进行参数化，并加入交叉关注分量，以包含文本指导 τ。相比之下，Au dioL D M[ 18]在训练过程中使用音频作为指导。在推理过程中，它们切换回文本指导，因为这是通过预先训练的联合文本音频嵌入 (CL AP)来促进的。如 2.1 节所述，我们没有发现音频指导训练和预训练 CLA P 是必要的。

2.3 增强

许多文本到图像 [28 ]和文本到音频[ 17 ]的工作已经显示了使用基于融合的增强样本进行训练以提高扩散网络的跨模态概念组成能力的有效性。因此，我们通过将现有音频对相互叠加并连接其字幕来合成额外的文本 -音频对。与 Liu et al.[18]和 Kr euk et al.[1 7]不同的是，为了混合音频对，我们不会随机地将它们组合起来。根据 To koz um e 等人的研究，我们转而考虑人类听觉感知的融合。具体来说，我们考虑了音频压力水平 G，以确保高压水平的样本不会压倒低压水平的样本。音频样本的权重(x1 )计算为相对压力级(其分布参见附录中的图 2 )
在这里插入图片描述
式 1 中，2 分别为两个音频样本的压力级 x1 and x2。这确保了两个音频样本的良好表示，后混音
此外，正如 Tokozum e 等人 b [39]所指出的，声波的能量与其振幅的平方成正比。因此，我们将 x1and x2 as 混合
在这里插入图片描述

2.4 无分类器引导

为了引导反向扩散过程重构音频先验 z0，我们采用文本输入 τ 的无分类器引导 [7]。在推理过程中，
相对于传递空文本的非引导估计 θ，一个引导尺度 w控制了文本引导对噪声估计的贡献 λ，其中:

在这里插入图片描述
我们还训练了一个模型，在训练过程中， 10 %的样本的文本指导被随机丢弃。我们发现这个模型的表现与一个总是对所有样本使用文本引导的模型相当。

2.5 音频 VAE和声码器

音频变分自编码器Avariational auto-encoder (VAE)[ 13]将音频样本 m∈ R T× F 的频谱压缩为音频先验 z0∈ R C ×T / r× F/ r，其中 C、 T、 F、 r 分别为信道数、时隙数、频隙数和压缩级别。 L D M(参见2.2 节 )使用输入-文本引导 τ 重建音频先验 z0 - uuu。编码器和解码器由 ResUNet 块 [1 5]组成，并通过最大化证据下界 (E L B O)[ 13]和最小化对抗性损失[9]进行训练。我们采用 Liu 等人 b[ 18]提供的音频 VAE 检查点。因此，我们使用他们的最佳报告设置，其中 C 和 r 分别被设置为 8 和 4。作为将音频 - va e 解码器生成的 mel-spectogram 转换为音频的声码器，我们也使用 HiFi-G A N [14]作为 Liu 等人的 [18 ]。

3 实验

3.1 数据集和训练

Text-to-Audio生成。 我们在 AudioCaps 数据集 [12 ]上执行主要的文本到音频生成实验。该数据集包含 45,4 38 个音频片段，与人工编写的训练字幕配对。验证集包含 224 0 个实例。音频片段长10 秒，从 Y ou Tu b e 视频中收集。这些片段最初是众包的，作为音频分类任务中更大的 AudioSet数据集[5]的一部分。
我们只使用来自 Audio Caps 数据集的成对 (文本、音频 )实例来训练 L D M。我们使用 Audio Caps 测试集作为评估数据。测试集为每个音频片段包含五个人工编写的字幕。为了与 Liu 等人的工作保持一致的评价，我们对随机选择的每个片段使用一个标题。随机选择的标题被用作文本提示，我们使用它从我们的模型中生成音频信号。
音频 VAE 和声码器。 我们使用 Liu 等人的音频 V AE 模型。这个 VAE 网络是在 A udioSet 、Au dioCa ps、 Freeso und2 和 BBC 音效库 3 (SFX )数据集上训练的。 Freesou nd 和 B BC SF X 中较长的音频片段被截断到前 30 秒，然后分成三个部分，每个部分 10 秒。所有音频片段以 16K Hz 频率重新采样，用于训练 VA E 网络。我们对 VAE 网络使用 4 级压缩和 8 个潜在通道。
我们还使用 Liu 等人 [18]的声码器，从 V AE 解码器生成的 mel 谱图生成音频波形。声码器是在Au dioSet 数据集上训练的 HiFi-G A N [1 4]网络。所有音频片段在 16 K Hz 重新采样以训练声码器网络。
模型、超参数和训练细节 我们将 FL A N-T5-L A R GE 文本编码器冻结在 T A N G O 中，只训练潜在扩散模型的参数。扩散模型基于稳定扩散 U- N et 架构 [33,34]，共有 866 M 个参数。我们在 U- N et 模型中使用 8 个通道和 1 024 个交叉注意维度。
我们使用学习率为 3e-5 的 Ada m W 优化器 [20]和线性学习率调度器进行训练。我们在 AudioCaps 数据集上训练了 40 个 epoch 的模型，并报告了具有最佳验证损失的检查点的结果，这是我们在 epoc h39 获得的。我们使用四个 A6000 gp u 来训练 TA N G O，总共需要 52 小时来训练 40 个 epoch，在每个 epoch 结束时进行验证。我们使用每个 GPU 批处理大小为 3(2 个原始实例 + 1 个增强实例 )，具有4 个梯度累积步骤。训练的有效批大小为 3 (instan ce)∗ 4 (accum ulation)∗ 4 (GPU) = 48。

3.2 基线模型

在我们的研究中，我们检查了三种现有模型:Y ang 等人的 DiffSo und, K re uk 等人的 Audio G en, Liu等人的 A udioL D M。 A udio G en 和 DiffS oun d 使用文本嵌入进行条件生成训练，而 Audio L D M 使用音频嵌入来避免配对文本音频数据中弱文本描述的潜在噪声。 A udioL D M 使用来自 C L AP 的音频嵌入，并断言它们在捕获跨模态信息方面是有效的。这些模型在大型数据集 (包括 A udioS et)上进行了预训练，并在评估前对 A udioC aps 数据集进行了微调，以提高性能。因此，将它们与我们的 TANGO 模型进行比较并不完全公平。
尽管在一个小得多的数据集上训练，我们的模型 T A N G O 优于在大得多的数据集上训练的基线。我们可能在很大程度上将此归因于 LL M FL A N -T5 的使用。因此，我们的模型 T A N G O 将自己与现有的三个模型区分开来，使其成为该领域当前研究的一个令人兴奋的补充。
值得注意的是， Liu 等人 [18]的 A udioL D M -L -Full-F T 检查点在我们的研究中不可用。因此，我们使用了由作者发布的 Audio L D M-M-F ull-F T 检查点，该检查点有 416 M 个参数。这个检查点在Au dioCa ps 和 M usicCa ps 数据集上进行了微调。在我们的研究中，我们使用这个检查点进行了主观评估。我们尝试对 Au dioCap s 数据集上的 AudioL D M -L -Full 检查点进行微调。然而，由于缺乏关于所使用的超参数的信息，我们无法重现 Liu 等人的研究结果。
我们的模型可以直接与 audio c m - l 进行比较，因为它具有几乎相同数量的参数，并且仅在Au dioC aps 数据集上进行训练。但值得注意的是， Liu 等人 [18]并没有释放该检查点，这使得我们无法对其生成的样本进行主观评价。

3.3 评价指标

客观的评价。 在这项工作中，我们使用了两个常用的客观指标 :Frech et 音频距离 (F A D)和 KL 散度。FA D[1 1]是一种感知度量，改编自 Fech et Inc eption Distanc e (FI D )，用于音频域。与基于参考的指标不同，它在不使用任何参考音频样本的情况下测量生成的音频分布与真实音频分布之间的距离。另一方面， K L 散度[43,17 ]是一种依赖于参考的度量，它根据预训练的分类器生成的标签计算原始音频样本和生成音频样本分布之间的散度。虽然 FAD 更多地与人类感知有关，但 K L 散度捕获了原始音频信号和生成音频信号之间基于它们所存在的广泛概念的相似性。除了 FA D 外，我们还使用 Fre ch et 距离 (FD)[ 18]作 ** 客观指标。** F D 与 FA D 相似，但它用 PA N N 代替了 V G Gish 分类器。在 FA D 和 F D 中使用不同的分类器使我们能够使用不同的特征表示来评估生成的音频的性能。
主观评价。继 Liu 等人 [18]和 Kre uk 等人 [17]之后，我们要求六名人类评估人员评估 30 个随机选择的基线和 tang o 生成的音频样本的两个方面—— 整体音频质量 (O VL)和与输入文本的相关性 (REL)，范围从 1到 100。评估者精通英语，并被很好地指导做出公平的评估。
主要的结果。 我们在表 1 中报告了我们的主要比较研究。我们将我们提出的 T A N G O 方法与DiffSo und [43 ]、 Audio G en [17 ]以及 Au dioL D M [1 8]的各种配置进行了比较。在推理过程中，Au dioL D M 从 L D M 中采样 20 0 步获得了最佳结果。为了公平比较，我们还在 T A N G O 和其他Audio L D M 实验中使用了 200 个推理步骤。我们对 TA N G O 使用无分类器的指导等级为 3。Audio LD M 在他们的各种实验中使用了 {2,2 .5,3 }之间的指导量表。
当仅在 Audio- Cap s 数据集上训练时，TA N G O 在客观指标上获得了新的最先进的结果，得分为24.52 F D, 1.37 KL 和 1.5 9 F A D。这明显优于最直接的基线 au diocd m - l，后者也只使用 A udioCa ps数据集进行 L DM 训练。我们将此归因于在 T A N G O 中使用 FLA N -T5 作为文本编码器。我们还注意到， TA N G O 的性能匹配或优于 Audio L D M-* -F T 模型，后者使用了显著 (~ 63 倍 )更大的数据集进行L D M 训练。 Audio L D M-*-F T 模型使用了两个阶段的 L D M 训练— —首先在四个数据集的集合上，然后只在 Au dioCaps 上。因此，与 Audio L D M- *-F T 型号系列相比， TA N G O 具有更高的采样效率。
在主观评价方面， T A N G O 也显示出非常好的结果，其整体音频质量得分为 85. 94，相关性得分为 80.36，表明其音频生成能力明显优于 A udio LD M 和其他基线文本到音频生成方法。
表 1:T A N G O 模型与基线 TTA 模型的比较。F T 表示该模型在 Au dioc aps ( A C)数据集上进行了微调。AS 和 AC 分别代表 Au dioSet 和 Audio cC aps 数据集。除了 A udio L D M-L-F ull 外，我们借用了 [18]的所有结果， Audio L D M -L -Full 是使用作者在 Hu ggingf a ce 上发布的模型进行评估的。尽管 L D M是在一个小得多的数据集上训练的，但 TA N G O 在客观和主观指标上都优于 AudioL D M 和其他基线 TTA 模型。表示使用 L iu 等人释放的检查点获得结果。[18]。
在这里插入图片描述

表 2:在大型数据集的语料库上训练时， T A N G O 和基线 TT A 模型的比较。T A N G O-Full-F T 首先在包含 AudioSet 、 A udioCa ps 、 Frees ound 和 BBC 数据集样本的语料库上进行预训练，然后对AudioC aps 进行微调。
在这里插入图片描述
大数据集上的训练。在本实验中，我们遵循两个步骤来提高 T A N G O 的性能。首先，我们使用来自 Wav Ca ps[ 24]、 A udio Ca ps 、 ES C[ 26]、 Ur b an- S ou nd [3 6]、 Music C aps [1]、 G T Z A N [4 0]和Musica l Instrum e ntsda ta set4 的文本提示和音频样本组成的不同语料库进行预训练。数据集统计表 3。所有超过 10 秒的音频片段被分割成连续 10 秒或更短的分区。我们还将所有音频片段重新采样到 16 K Hz。 Wav Ca ps 数据集由 chatgpt 为 FreeS ound5、 BBC 音效 6 (SF X)和 AudioS et 强标记子集生成的字幕组成。城市声音和 ESC50 数据集包含各种环境声音。乐器数据集包含吉他、鼓、小提琴和钢琴乐器的声音。 GT Z A N 数据集包含不同音乐类型的声音 -古典，爵士等。这四个数据集 -城市声音， ESC50，乐器， G TZ A N 是音频分类数据集。我们使用分类标签，例如钢琴和一个更自然的钢琴提示音，为这些数据集的每个音频样本创建两个不同的训练实例。
最初的预训练阶段旨在获取对音频和文本交互的广泛理解。接下来，我们针对 A udioC aps 数据集
对预训练模型进行微调。所获得的结果如表 2 所示，表明与 A udio L D M 家族中的类似模型相比，T A N G O -F U LL-F T 实现了显着的性能改进。这些可比模型经历了相同的预训练和微调方法，突出了我们的方法在提高模型整体性能方面的有效性。我们使用 4 个 A60 00 gpu 对 T A N G O 进行了持续 20 万步的预训练。为了优化训练过程，我们将每个 GP U 的批大小设置为 2，并采用 8 个梯度累积步骤，这有效地将批大小增加到 64 个。我们在 Au dioCa ps 上微调了 57 K 步的模型。为了帮助 TTA 中的开源研究，我们公开发布了这个数据集。
在这里插入图片描述
不同数据增强策略的效果。表 4 给出了随机和相对基于压力的数据增强策略的比较。值得注意的是，基于相对压力的增强策略产生了最有希望的结果。在评估 T A N G O 与 A u dio L D M -L 时，两者都使用随机数据增强策略， T A N G O 在三个客观指标中的两个方面优于 Au dio L D M -L。这一显著的改进可归功于在 T A N G O 中集成了一个强大的大型语言模型( F L A N -T5 )作为文本提示编码器。
表 4:随机与相对压力引导增强对客观评估指标的影响。以3 和 200 个推理步骤的指导量表计算得分。
在这里插入图片描述
推理步骤与无分类器引导的效果。推理步数和无分类器引导尺度对于从潜在扩散模型中采样至关重要 [38,7]。我们在表 5 中报告了不同步数和不同制导尺度对 Audio Ca ps 中音频生成的影响。我们发现，指导等级为 3 的 T A N G O 提供了最好的结果。在表 5 的左侧部分，我们固定了 3 的指导尺度，并将步数从 10 变化到 200。随着步数的增加，生成的音频质量和最终的客观指标始终变得更好。 Liu et al.[ 18]报道， Au dioL D M 的性能在 100 步左右趋于平稳， 200 步只提供略微更好的性能。然而，我们注意到，当 T A N G O 的推理步骤从 100 步增加到 200 步时，性能有了实质性的提高，这表明更多的推理步骤可能会进一步提高性能。
在这里插入图片描述
我们在表 5 的右半部分报告了用固定的 100 步改变指导量表的效果。第一行使用 1 的引导尺度，因此在推理过程中有效地完全不应用无分类器的引导。不出所料，这种配置的性能很差，在所有客观度量上远远落后于无分类器引导模型。指导分值为 2.5,F D 和 K L 较好，指导分值为 5。在指导尺度为 3 时，得到最佳 FA D 指标，指导尺度越大，指标越差。
时序建模 (Temporal Sequence modeling). 我们分析了当文本提示包含多个连续事件时， T A N G O 和AudioL D M 模型如何执行音频生成。考虑下面的例子 :一个小男孩说话，然后是塑料叮当声，然后是一个孩子笑，其中包含三个独立的连续事件，而滚雷和闪电只包含一个。我们使用时态标识符 (while、befor e、 after、 then 和 follows)将 Au dioCaps 测试集分离为两个子集，一个具有多个事件，另一个具有单个事件。我们在表 6 中显示了这些子集上音频生成的客观评估结果。 T A N GO 在多个事件和单个事件实例中都能获得最佳的 F D 和 FA D 分数。 Audio L D M-M-Full-F T 模型的 K L 散度得分最高。我们推测，与无参考的 F D 和 F A D 指标不同，来自 Au dioL D M 中四个训练数据集的更大语料库可能更有助于改进基于参考的 K L 指标.
表 6:A udioC ap s 测试集中文本提示符中存在多个事件或单个事件时音频生成的客观评估结果。多个事件和单个事件子集共同构成了整个 AudioC aps 测试集。需要注意的是， F D 和 F AD 是语料库级别的非线性指标，因此表 1 中报告的 F D 和 F A D 分数并不是本表中报告的子集分数的平均值。
在这里插入图片描述
性能与标签数量的关系。 回想一下， A udioCaps 数据集是根据 AudioS et 数据集中音频分类任务的注释进行策划的。因此， Au dioCa ps 中的文本提示可以与 Au dioSet 的离散类标签配对。 A udioSet数据集总共包含 632 个音频事件类。例如，一个女人和一个婴儿正在进行对话，其对应的音频片段有以下三个标签 :Speech, C hil d Speech ki d s peaki ng, Insi de s mall room。我们在 Au dioCa ps 中对具有一个标签、两个标签和多个 (两个或更多)标签的实例进行分组，并跨客观指标评估生成的音频。我们在表 7 中报告了实验结果。 TA N G O 在从带有一个标签或两个标签的文本生成音频的所有客观指标上都优于 Au dioL D M 模型。对于具有多个标签的文本， Au dioL D M 获得了更好的 KL 发散分数，T A N G O 获得了更好的 F D 和 F AD 分数。有趣的是，随着标签的增加，所有的模型都获得了更好的 FD 和 KL 分数，这表明扩散模型更有效地处理了这些文本提示。
表 7: 对于包含一个、两个或多个(两个或更多 )标签的文本， A udioC aps 中音频生成的性能。
Au dioC aps 中的每个文本都有 A udioSet 中相应的多类别标签。我们使用这些标签将 Au dioCa ps 数据集划分为三个子集。
在这里插入图片描述
增压的影响和相对压力水平 §增压的分布我们在前面的 2.3 节中描述了我们的增压策略。方程 (9)中相对压力水平 p 在训练样本中的分布如图 2 所示，这意味着相对压力水平大致为正态分布，许多样本的相对压力水平较低，这可能在随机混合中表现不佳。相比之下，我们的方法允许更公平的混合。
在这里插入图片描述
表 8:A udioC aps 数据集中最常见类别的 Audio L D M - M -Full FT 和 T A N G O 性能“ CE B” 表示通道、环境和背景声音类别。

分类模型。 AudioSet 中的类标签可以分层排列，获得以下顶级类别:i)人类声音， ii)动物声音，iii)自然声音，iv)声音事物， v)通道，环境，背景声音， vi)源模糊的声音，以及 vii)音乐。我们将 A udioCa ps 中的类标签映射到上面列出的七个主要类别。音乐类别在 Au dioCa ps 中非常罕见，其他类别要么单独出现，要么与其他类别组合在一起。我们选择最常出现的类别组合，并分析表 8 中构成 AudioC aps 实例的各种模型的性能。这两个模型的性能在 F D 和 KL 指标上相当平衡， T A N G O 在某些方面更好，而 AudioL D M 在其他方面更好。然而，除了一组之外， T A N G O 在所有组中都取得了更好的 FA D分数，在(人类，动物 )， (自然)， (事物 )和(自然，事物 )类别中有很大的改进。

4 相关作品

扩散模型。 近年来，扩散模型作为生成高质量语音的主要方法激增[2,1 6,27, 28,1 0,8]。这些模型利用固定数量的马尔可夫链步骤将白噪声信号转换为结构化波形。其中， FastDiff 在高质量语音合成 [8]方面取得了显著的效果。通过利用时间感知扩散过程堆栈， FastDiff 可以以令人印象深刻的速度生成卓越质量的语音样本，比 V10 0 GPU 上的实时速度快 58 倍，使其适用于语音合成部署。在端到端文本到语音合成方面，它超越了其他现有的方法。另一个值得注意的音频合成概率模型是 Diff Wa ve[ 16]，它是非自回归的，为各种波形生成任务生成高保真音频，包括基于 mel 谱图的神经语音编码、类条件生成和无条件生成。 Diff Wa ve 提供的语音质量与强大的 Wav e N et 声码器[25]相当，同时合成音频的速度要快得多。扩散模型已经成为一种很有前途的语音处理方法，特别是在语音增强方面 [21,37,2 9,22 ]。扩散概率模型的最新进展导致了一种新的语音增强算法的发展，该算法将有噪声语音信号的特征纳入正向和反向扩散过程[23]。这种新算法是概率扩散模型的一种广义形式，被称为条件扩散概率模型。在其反向过程中，它可以适应估计语音信号中的非高斯实噪声，使得其在提高语音质量方面非常有效。此外， Qiu 等人[29]提出了 SRT Net，这是一种用于语音增强的新方法，将扩散模型作为随机细化的模块。所提出的方法包括确定性模块和随机模块的联合网络，形成了 “ 增强 -细化 ”范式。本文还对所提出的方法的可行性进行了理论论证，并给出了支持其有效性的实验结果，突出了其在提高语音质量方面的潜力。
Text-to-Audio生成。 文本到音频生成领域直到最近才得到有限的关注 [17,4 3]。在 Y ang 等人的[43]中，使用文本编码器来获取文本特征，然后由非自回归解码器处理以生成谱图令牌。这些标记被馈送到矢量量化 V AE ( V Q - V A E)以生成声谱图，声码器使用该声谱图生成音频。非自回归解码器是一个概率扩散模型。此外，Y an g 等人引入了一种新的数据增强技术，称为基于掩码的文本生成策略 ( MB T G )，该技术屏蔽了不代表任何事件的输入文本部分，例如那些表示时间性的部分。M BT G 的目的是在训练过程中从音频中学习增强文本描述。虽然这种方法看起来很有前途，但它的根本限制是生成的数据缺乏多样性，因为它无法混合不同的音频样本。后来， Kre uk 等人[1 7]对该方法进行了修正，根据随机信噪比混合音频信号，并将相应的文本描述串接起来。这种方法允许生成新的 (文本、音频)对，并减轻了 Y an g 等人的限制。与 Y an g 等人 [43]不同，Kr eu k 等人提出的架构[17]使用变压器编码器和解码器网络从文本输入自回归地生成音频令牌。
最近， Liu 等人提出了 A udioL D M，将文本到视觉的潜在扩散模型转化为文本到音频的生成。他们预先训练了基于 va e 的编码器-解码器网络来学习音频的压缩潜在表示，然后用它来指导扩散模型从文本输入生成音频令牌。他们发现，在反向扩散过程中使用音频嵌入而不是文本嵌入改善了条件音频生成。在推理期间，他们使用文本嵌入进行文本到音频的生成。使用预训练的 CL AP获得音频和文本嵌入，这是原始 LD M 模型中使用的 C LIP 嵌入的音频对应。

5 局限性

T AN G O 并不总是能够通过文本控制提示来精细地控制其生成，因为它只在小型 A udioCaps 数据集上进行训练。例如，《 TA N G O》中的几代人在木桌上切西红柿和在金属桌上切土豆是非常相似的。在桌子上切菜也会产生类似的音频样本。因此，需要在更大的数据集上训练文本到音频的生成模型，以使模型学习文本概念的组成和各种文本 -音频映射。在未来，我们计划通过在更大的数据集上训练 TAN G O 并增强其组成和可控生成能力来改进它。

6 结论

在这项工作中，我们研究了指令调谐模型 FL A N-T 5 在文本到音频生成中的有效性。具体来说，我们在潜在扩散模型中使用 FL A N-T 5 生成的文本嵌入来生成 mel 谱图标记。然后将这些标记馈送到预训练的变分自编码器 (V A E )以生成 m el 谱图，这些谱图稍后由预训练的声码器使用以生成音频。与最先进的文本到音频模型 Audio L D M 相比，我们的模型在客观和主观评估下都取得了卓越的表现，尽管使用的训练数据只减少了 6 3 倍。我们主要将这种性能改进归因于 FL A N-T5 的表示能力，这是由于它在预训练阶段基于指令的调整。在未来，我们计划研究 FL A N-T 5 在其他音频任务中的有效性，例如音频超分辨率和喷漆。

参考文献

[1] Andrea Agostinelli, Timo I Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon,
Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, et al. Musiclm: Generating
music from text. arXiv preprint arXiv:2301.11325, 2023.
[2] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J Weiss, Mohammad Norouzi, and William Chan.
Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713,
2020.
[3] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li,
Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu,
Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav
Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov,
Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason
Wei. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/
2210.11416.
[4] Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, and Furu Wei. Why can gpt learn
in-context? language models secretly perform gradient descent as meta-optimizers. ArXiv,
abs/2212.10559, 2022.
[5] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled
dataset for audio events. In 2017 IEEE international conference on acoustics, speech and
signal processing (ICASSP), pages 776–780. IEEE, 2017.
[6] Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, and
Baining Guo. Efficient diffusion training via min-snr weighting strategy, 2023.
[7] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. NeurIPS 2021 Workshop
on Deep Generative Models and Downstream Applications, 2021.
[8] Rongjie Huang, Max WY Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, and Zhou Zhao. Fastdiff: A fast conditional diffusion model for high-quality speech synthesis. arXiv preprint
arXiv:2204.09934, 2022.
[9] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation
with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 5967–5976, 2016.
[10] Myeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, and Nam Soo Kim.
Diff-tts: A denoising diffusion model for text-to-speech. arXiv preprint arXiv:2104.01409,
2021.
[11] Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, and Matthew Sharifi. Fréchet audio
distance: A reference-free metric for evaluating music enhancement algorithms. In INTERSPEECH, pages 2350–2354, 2019.
[12] Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, and Gunhee Kim. Audiocaps: Generating captions for audios in the wild. In Proceedings of the 2019 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 119–132, 2019.
[13] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. CoRR,
abs/1312.6114, 2013.
[14] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae. Hifi-gan: Generative adversarial networks
for efficient and high fidelity speech synthesis. Advances in Neural Information Processing
Systems, 33:17022–17033, 2020.
[15] Qiuqiang Kong, Yin Cao, Haohe Liu, Keunwoo Choi, and Yuxuan Wang. Decoupling magnitude and phase estimation with deep resunet for music source separation. In International
Society for Music Information Retrieval Conference, 2021.
[16] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile
diffusion model for audio synthesis. arXiv preprint arXiv:2009.09761, 2020.
[17] Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre D’efossez, Jade Copet,
Devi Parikh, Yaniv Taigman, and Yossi Adi. Audiogen: Textually guided audio generation.
ArXiv, abs/2209.15352, 2022.
[18] Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo P. Mandic, Wenwu Wang,
and Mark D . Plumbley. AudioLDM: Text-to-audio generation with latent diffusion models.
ArXiv, abs/2301.12503, 2023.
[19] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy,
Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert
pretraining approach. ArXiv, abs/1907.11692, 2019.
[20] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint
arXiv:1711.05101, 2017.
[21] Yen-Ju Lu, Yu Tsao, and Shinji Watanabe. A study on speech enhancement based on diffusion probabilistic model. In 2021 Asia-Pacific Signal and Information Processing Association
Annual Summit and Conference (APSIPA ASC), pages 659–666, 2021.
[22] Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, and Yu Tsao.
Conditional diffusion probabilistic model for speech enhancement. In ICASSP 2022 - 2022
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages
7402–7406, 2022. doi: 10.1109/ICASSP43922.2022.9746901.
[23] Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, and Yu Tsao.
Conditional diffusion probabilistic model for speech enhancement. In ICASSP 2022-2022
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages
7402–7406. IEEE, 2022.
[24] Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao,
Mark D Plumbley, Yuexian Zou, and Wenwu Wang. Wavcaps: A chatgpt-assisted weaklylabelled audio captioning dataset for audio-language multimodal research. arXiv preprint
arXiv:2303.17395, 2023.
[25] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex
Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative
model for raw audio. arXiv preprint arXiv:1609.03499, 2016.
[26] Karol J. Piczak. ESC: Dataset for Environmental Sound Classification. In Proceedings
of the 23rd Annual ACM Conference on Multimedia, pages 1015–1018. ACM Press, 2015.
ISBN 978-1-4503-3459-4. doi: 10.1145/2733373.2806390. URL http://dl.acm.org/
citation.cfm?doid=2733373.2806390.
[27] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail Kudinov. Gradtts: A diffusion probabilistic model for text-to-speech. In International Conference on Machine
Learning, pages 8599–8608. PMLR, 2021.
[28] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov, and Jiansheng Wei. Diffusion-based voice conversion with fast maximum likelihood sampling scheme.
arXiv preprint arXiv:2109.13821, 2021.
[29] Zhibin Qiu, Mengfan Fu, Yinfeng Yu, LiLi Yin, Fuchun Sun, and Hao Huang. Srtnet: Time domain speech enhancement via stochastic refinement. arXiv preprint arXiv:2210.16805, 2022.
[30] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena,
Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified
text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. URL
http://jmlr.org/papers/v21/20-074.html.
[31] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark
Chen, and Ilya Sutskever. Zero-shot text-to-image generation. ArXiv, abs/2102.12092, 2021.
[32] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical
text-conditional image generation with clip latents. ArXiv, abs/2204.06125, 2022.
[33] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer.
High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
[34] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for
biomedical image segmentation. In Nassir Navab, Joachim Hornegger, William M. Wells, and
Alejandro F. Frangi, editors, Medical Image Computing and Computer-Assisted Intervention –
MICCAI 2015, pages 234–241, Cham, 2015. Springer International Publishing. ISBN 978-3-
319-24574-4.
[35] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural
Information Processing Systems, 35:36479–36494, 2022.
[36] Justin Salamon, Christopher Jacoby, and Juan Pablo Bello. A dataset and taxonomy for urban
sound research. In Proceedings of the 22nd ACM international conference on Multimedia,
pages 1041–1044, 2014.
[37] Joan Serrà, Santiago Pascual, Jordi Pons, R Oguz Araz, and Davide Scaini. Universal speech
enhancement with score-based diffusion. arXiv preprint arXiv:2206.03065, 2022.
[38] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. ArXiv,
abs/2010.02502, 2020.
[39] Yuji Tokozume, Yoshitaka Ushiku, and Tatsuya Harada. Learning from between-class examples for deep sound recognition. CoRR, abs/1711.10282, 2017. URL http://arxiv.org/
abs/1711.10282.
[40] George Tzanetakis and Perry Cook. Musical genre classification of audio signals. IEEE Transactions on speech and audio processing, 10(5):293–302, 2002.
[41] Wikipedia. Tango. https://en.wikipedia.org/wiki/Tango, 2021. [Online; accessed
21-April-2023].
[42] Wikipedia. Tango music. https://en.wikipedia.org/wiki/Tango_music, 2021. [Online; accessed 21-April-2023].
[43] Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, and Dong
Yu. Diffsound: Discrete diffusion model for text-to-sound generation. arXiv preprint
arXiv:2207.09983, 2022.