Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

abstract

做了什么事情?

  • 支持各种形式的输入(文本,音频,图片,视频),最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。
  • text-to-audio生成的难点:(1)没有大量的txt-audio数据,(2)生成唱的连续音频较难;
  • Make-An-Audio 的做法:(1)数据问题:使用distill-then-reprogram的方法引入伪prompt enhancement,从而实现对海量无标注语音数据的利用;(2)利用spec-encoder获得自监督表征,实现了高级别语义信号的理解。使用了contrastive language-audio pretraining (CLAP) representations(对于理解自然语言和计算效率有益)和diffusion模型(高精度生成),实现可控生成的X-to-Audio。

method

Pseudo Prompt Enhancement: Distill-then-Reprogram

在这里插入图片描述

distill

  • prompt enhancement approach分为两个阶段:(1)expert distillation,(2)dynamic reprogramming:可以生成新的多样性组合,实验结果表明有正向作用;
  • 预训练的专家模型Audio Captioning和Audio-Text Retrieval,联合在一起对给定音频生成候选标题,然后通过CLAPS计算高分的标题作为最终选择(设一个挑选阈值)。
    • Audio Captioning:负责根据输入的音频,生成多种音频内容的文本描述;
    • Audio-Text Retrieval:输入文本作为query,根据数据集恢复相关的音频文件;
  • 当以零样本方式迁移到 Clotho 更具挑战性的场景时,可以看到明显的退化,证明其在构建不同对象组合以实现更好泛化方面的有效性。

dynamic reprogramming

  • (1)声学事件数据集,有简单的标签;(2)每次随机采样N个样本,(3)原始的text-audio-pair和采样的声学事件在时间域随机拼接,组成包含不同时间的新的样本。可以在线组合,降低时间成本。

Textual Representation

  • text-guided 生成必要条件是理解text信息,可以有两种方法:(1)Contrastive pretraining,比如text2image中的CLIP(contrastive language-image pretraining),text2audio的CLAP(contrastive language-audio pretraining);(2)大语言模型,相比于多模态模型,文本丰富度更高;
  • 本文选择CLAP模型:对比了CLAP模型和T5-large模型,在benchmark评估效果相当,CLAP无需离线的emb计算,效率更高,故选择CLP。

Audio Representation

  • 自监督语音模型的结构:encoder-decoder,encoder将mel-spec映射到 z z z,decoder将 z z z重建为mel-spec。
  • 训练目标:(1)mel重建loss,(2)GAN loss;(3)KL loss
  • 这里只用到了encoder的模块,抽象出high-level semantic presentation

Generative Latent Diffusion

在这里插入图片描述

  • ϵ \epsilon ϵ 是噪声分布, ϵ θ \epsilon_{\theta} ϵθ是diffusion denoise net; t t t是待优化的随机项
  • 主要采用DDPM的网络,不需要对抗反馈,可以有效的优化ELBO

Classifier-Free Guidance

  • condition diffusion和non-condition diffusion模型的联合训练,可以在样本质量和丰富性上得到折中。
    在这里插入图片描述
  • 如上图,训练时候的文本提示 c c c用空提示(一个固定的概率) c ϕ c_{\phi} cϕ代替;在推理阶段,模型推断在guidance scale s > = 1 s>=1 s>=1之下,朝着 ϵ θ ( z t , t , c ) \epsilon_{\theta}(z_t,t,c) ϵθ(zt,t,c)的方向,远离 ϵ θ ( z t , t , c ϕ ) \epsilon_{\theta}(z_t,t,c_{\phi}) ϵθ(zt,t,cϕ)

在这里插入图片描述

X-To-Audio: No Modality Left Behind

在这里插入图片描述

Personalized Text-To-Audio Generation

  • 作者认为AIGC的关键是可以根据用户提示生成一些定制化的内容
  • 随着T增大,初始语音中加了很多噪声,生成的样本更加真实(音频质量提升)但是less faithful(图文一致性下降)

Audio Inpainting

  • diffusion模型直接做音频修复,可能会有edge artifacts的问题;
  • 微调Make-an-Audio来解决这一问题:
    • 借鉴LaMa的mask方法:irregular masks (thick, medium, and thin masks) ,which uniformly uses polygonal chains dilated by a high random width (wide masks) and rectangles of arbitrary aspect ratios (box masks).
    • 借鉴wav2vec 2.0使用的frame-base mask方法
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值