- huangrongjie,renyi
- bytedance
abstract
做了什么事情?
- 支持各种形式的输入(文本,音频,图片,视频),最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。
- text-to-audio生成的难点:(1)没有大量的txt-audio数据,(2)生成唱的连续音频较难;
- Make-An-Audio 的做法:(1)数据问题:使用distill-then-reprogram的方法引入伪prompt enhancement,从而实现对海量无标注语音数据的利用;(2)利用spec-encoder获得自监督表征,实现了高级别语义信号的理解。使用了contrastive language-audio pretraining (CLAP) representations(对于理解自然语言和计算效率有益)和diffusion模型(高精度生成),实现可控生成的X-to-Audio。
method
Pseudo Prompt Enhancement: Distill-then-Reprogram
distill
- prompt enhancement approach分为两个阶段:(1)expert distillation,(2)dynamic reprogramming:可以生成新的多样性组合,实验结果表明有正向作用;
- 预训练的专家模型Audio Captioning和Audio-Text Retrieval,联合在一起对给定音频生成候选标题,然后通过CLAPS计算高分的标题作为最终选择(设一个挑选阈值)。
- Audio Captioning:负责根据输入的音频,生成多种音频内容的文本描述;
- Audio-Text Retrieval:输入文本作为query,根据数据集恢复相关的音频文件;
- 当以零样本方式迁移到 Clotho 更具挑战性的场景时,可以看到明显的退化,证明其在构建不同对象组合以实现更好泛化方面的有效性。
dynamic reprogramming
- (1)声学事件数据集,有简单的标签;(2)每次随机采样N个样本,(3)原始的text-audio-pair和采样的声学事件在时间域随机拼接,组成包含不同时间的新的样本。可以在线组合,降低时间成本。
Textual Representation
- text-guided 生成必要条件是理解text信息,可以有两种方法:(1)Contrastive pretraining,比如text2image中的CLIP(contrastive language-image pretraining),text2audio的CLAP(contrastive language-audio pretraining);(2)大语言模型,相比于多模态模型,文本丰富度更高;
- 本文选择CLAP模型:对比了CLAP模型和T5-large模型,在benchmark评估效果相当,CLAP无需离线的emb计算,效率更高,故选择CLP。
Audio Representation
- 自监督语音模型的结构:encoder-decoder,encoder将mel-spec映射到 z z z,decoder将 z z z重建为mel-spec。
- 训练目标:(1)mel重建loss,(2)GAN loss;(3)KL loss
- 这里只用到了encoder的模块,抽象出high-level semantic presentation
Generative Latent Diffusion
- ϵ \epsilon ϵ 是噪声分布, ϵ θ \epsilon_{\theta} ϵθ是diffusion denoise net; t t t是待优化的随机项
- 主要采用DDPM的网络,不需要对抗反馈,可以有效的优化ELBO
Classifier-Free Guidance
- condition diffusion和non-condition diffusion模型的联合训练,可以在样本质量和丰富性上得到折中。
- 如上图,训练时候的文本提示 c c c用空提示(一个固定的概率) c ϕ c_{\phi} cϕ代替;在推理阶段,模型推断在guidance scale s > = 1 s>=1 s>=1之下,朝着 ϵ θ ( z t , t , c ) \epsilon_{\theta}(z_t,t,c) ϵθ(zt,t,c)的方向,远离 ϵ θ ( z t , t , c ϕ ) \epsilon_{\theta}(z_t,t,c_{\phi}) ϵθ(zt,t,cϕ)
X-To-Audio: No Modality Left Behind
Personalized Text-To-Audio Generation
- 作者认为AIGC的关键是可以根据用户提示生成一些定制化的内容
- 随着T增大,初始语音中加了很多噪声,生成的样本更加真实(音频质量提升)但是less faithful(图文一致性下降)
Audio Inpainting
- diffusion模型直接做音频修复,可能会有edge artifacts的问题;
- 微调Make-an-Audio来解决这一问题:
- 借鉴LaMa的mask方法:irregular masks (thick, medium, and thin masks) ,which uniformly uses polygonal chains dilated by a high random width (wide masks) and rectangles of arbitrary aspect ratios (box masks).
- 借鉴wav2vec 2.0使用的frame-base mask方法