Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

林林宋

已于 2023-03-10 10:58:08 修改

阅读量902

点赞数 1

分类专栏： paper笔记文章标签：人工智能 python 语音识别

于 2023-02-10 14:20:48 首次发布

原文链接：https://arxiv.org/abs/2301.12661

版权

162 篇文章 24 订阅

订阅专栏

abstract

做了什么事情？

支持各种形式的输入（文本，音频，图片，视频），最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。
text-to-audio生成的难点：（1）没有大量的txt-audio数据，（2）生成唱的连续音频较难；
Make-An-Audio 的做法：（1）数据问题：使用distill-then-reprogram的方法引入伪prompt enhancement，从而实现对海量无标注语音数据的利用；（2）利用spec-encoder获得自监督表征，实现了高级别语义信号的理解。使用了contrastive language-audio pretraining (CLAP) representations(对于理解自然语言和计算效率有益)和diffusion模型（高精度生成），实现可控生成的X-to-Audio。

在这里插入图片描述

prompt enhancement approach分为两个阶段：（1）expert distillation，（2）dynamic reprogramming：可以生成新的多样性组合，实验结果表明有正向作用；
预训练的专家模型Audio Captioning和Audio-Text Retrieval，联合在一起对给定音频生成候选标题，然后通过CLAPS计算高分的标题作为最终选择（设一个挑选阈值）。
- Audio Captioning：负责根据输入的音频，生成多种音频内容的文本描述；
- Audio-Text Retrieval：输入文本作为query，根据数据集恢复相关的音频文件；
当以零样本方式迁移到 Clotho 更具挑战性的场景时，可以看到明显的退化，证明其在构建不同对象组合以实现更好泛化方面的有效性。

(1)声学事件数据集，有简单的标签；（2）每次随机采样N个样本，（3）原始的text-audio-pair和采样的声学事件在时间域随机拼接，组成包含不同时间的新的样本。可以在线组合，降低时间成本。

text-guided 生成必要条件是理解text信息，可以有两种方法：（1）Contrastive pretraining，比如text2image中的CLIP（contrastive language-image pretraining），text2audio的CLAP（contrastive language-audio pretraining）；（2）大语言模型，相比于多模态模型，文本丰富度更高；
本文选择CLAP模型：对比了CLAP模型和T5-large模型，在benchmark评估效果相当，CLAP无需离线的emb计算，效率更高，故选择CLP。

在这里插入图片描述

condition diffusion和non-condition diffusion模型的联合训练，可以在样本质量和丰富性上得到折中。
如上图，训练时候的文本提示 $c$ 用空提示（一个固定的概率） $c_{\phi}$ 代替；在推理阶段，模型推断在guidance scale $s >= 1$ 之下，朝着 $\epsilon_{\theta}(z_t,t,c)$ 的方向，远离 $\epsilon_{\theta}(z_t,t,c_{\phi})$

在这里插入图片描述

在这里插入图片描述

diffusion模型直接做音频修复，可能会有edge artifacts的问题；
微调Make-an-Audio来解决这一问题：
- 借鉴LaMa的mask方法：irregular masks (thick, medium, and thin masks) ，which uniformly uses polygonal chains dilated by a high random width (wide masks) and rectangles of arbitrary aspect ratios (box masks).
- 借鉴wav2vec 2.0使用的frame-base mask方法

关注