AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习

south020

已于 2023-10-26 15:44:31 修改

阅读量633

点赞数 1

分类专栏： X2MUSIC 文章标签：学习语音识别人工智能

于 2023-09-04 20:14:40 首次发布

本文链接：https://blog.csdn.net/weixin_42323588/article/details/132661039

版权

X2MUSIC 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

代码 https://audioldm.github.io/audioldm2/

1 摘要

虽然不同类型的音频（如语音、音乐和音效）在音频生成方面存在共性，但为每种类型设计模型时都需要仔细考虑特定的目标和偏差，这些目标和偏差可能与其他类型的目标和偏差有很大不同。为了让我们更接近统一的音频生成视角，本文提出了一个框架，利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法，称为 "音频语言"（LOA）。任何音频都可以根据 AudioMAE（一种自我监督的预训练表示学习模型）翻译成 LOA。在生成过程中，我们使用 GPT-2 模型将任何模态转化为 LOA，并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然会带来一些优势，如上下文学习能力和可重复使用的自监督预训练 AudioMAE 和潜扩散模型。在文本到音频、文本到音乐和文本到语音等主要基准上进行的实验表明，与以前的方法相比，我们的性能达到了最新水平或具有竞争力。

2 文章框架

1 介绍

2 AudioLDM 2模型

（3 实验设置、4 结果、5 相关工作）

6 结论

在本文中，我们提出了用于音频生成的 AudioLDM 2，并在文本到音频、文本到音乐以及文本到语音的生成任务中取得了最先进或可比较的性能。作为一种通用的音频表示法，我们提出的音频语言（LOA）可以对潜在扩散模型进行自监督预训练，从而为音频生成任务奠定坚实的基础。我们通过执行上下文学习和将 AudioLDM 2 扩展到图像到音频生成，进一步证明了我们提出的方法的多功能性。AudioLDM 2 从统一的角度为音频生成的未来工作打开了大门。未来的工作重点将是实现 GPT 模型的多任务学习，从而用单一模型同时生成音频、音乐和语音。

3 模型框架记录 $H:C \mapsto x$ (简单理解为在条件C下用H来生成x)

x是一个实数序列，代表音频信号；Ls是音频样本的长度音频；生成过程可以用函数H来表示，其中C是条件信息，H是条件生成系统。条件C是灵活的，可以包括文本、图像、视频、功能磁共振成像等。直接生成音频x通常很具有挑战性，因为条件C与x之间存在较大的分布差异。为了解决这个问题，研究者们提出了利用语言化音频（LOA）Y = A(x)作为中间特征来弥合C和x之间差距的方法。其中，A是一个音频到LOA编码器，通过手工规则或自监督学习的方式生成抽象化的Y，代表x的语义信息。

整个生成过程公式表示如下