Audioldm1 和 Audioldm2 阅读笔记

Audioldm1

在这里插入图片描述

框架

**CLAP:**提供一个文本和音频embedding共享的跨模态空间,对齐两种信息,然后将音频样本x转换为在对齐的音频-文本嵌入空间中的嵌入Ex

Conditional Latent Diffusion Models:在CLAP将音频和文本在跨模态空间对齐后,可以利用音频嵌入Ex来训练LDM,用文本嵌入Ey进行TTA。在DM的生成阶段使用文本嵌入Ey作为条件,并使用改进的噪声估计进行采样。

VAE:由一个编码器和一个具有堆叠卷积模块的解码器组成,编码器利用摩尔谱图生成潜在空间用于LDM训练(?),在采样过程中,使用解码器从LDMs生成的音频先验 z o ^ \hat{z_o} zo^重建摩尔谱图$\hat{\boldsymbol{X}} $

Classifier-free Guidance:在训练过程中以固定的概率随机丢弃条件Ex

应用 Text-Guided Audio Manipulation

Style Transfer:通过调整LDM反向过程的起点n0实现

Inpainting and Super-Resolution :将观察到的部分加入latent representation

Audioldm2

在这里插入图片描述

框架

AudioMAE:作为函数 A \mathcal{A} A的表示提取模块,为音频生成任务中提供更好的输入表示。是一种音频自监督的预训练模型,它对未标记的音频数据进行表征表示,不依赖于手动标记的注释。类似ViT架构,相较于VAE在语义方面包含了更多的信息。

**AudioMAE特征提取后处理:**计算出AudioMAE特性E后引入一个额外的池化步骤,将E聚合到 Y λ Y_{\lambda} Yλ中 。(λ表示在后处理池化步骤中使用的一个超参数。这个池化步骤旨在减少序列长度,便于在函数 M \mathcal{M} M中更容易地估计。)

GPT-2:是一个利用条件 C C C生成特征 Y Y Y的语言模型,实现 M θ : C → Y ^ \mathcal{M}_\theta: C \rightarrow \hat{Y} Mθ:CY^,结合CLAPFLAN-T5Phoneme EncoderImageBind将不同模态的输入转化为LOA,并进行自回归建模。

在这里插入图片描述

LDM:在基于变分自编码器(VAE)的压缩潜在空间中学习反向扩散过程实现LOA to Audio Generation,对随机隐变量进行 去噪 ,(感觉和audioldm 1很相似)。注意最后一个transformer block 将自注意层更改为交叉注意层,同时添加了一个额外的交叉注意层,接受来自FLAN-T5的文本嵌入作为额外的条件来增强音频-文本关系学习。

*Joint Finetuning:*概率切换器在联合训练过程中控制着调节信号的来源

问题:audioldm1到audioldm2有什么改变,这些改变的原因 有什么好处

  • Audio encoder变化:v1 based on HTSAT ,v2 use Audioldm MAE

    准确地表示不同类型的音频,包括语音、音乐和音效,有效地捕获音频信号的语义和声学细节,且无需手动注释。

  • AudioLDM 2能够对潜在扩散模型进行自我监督的预训练,

    这意味着模型可以在大规模未标记的音频数据上进行预训练,从而提高了模型的泛化能力和性能,也减轻了减轻音频数据标记稀缺的问题。

  • 利用GPT-2模型对LOA进行自回归建模

    可以利用不同模态的数据,有助于提高模型的性能并减少推理计算成本,具有上下文学习的能力,可以实现Audio In-context Learning

  • 将LDM中的Unet换成Transformer-Unet

    每个编码器和解码器块中插入多个 Transformer 块,结合了 Transformer 的序列建模能力和 UNet 的图像处理能力,可以更好地捕捉输入数据的复杂关系和特征,提高模型对输入数据不同层次特征的理解和利用,增强了模型的建模能力。

  • 性能提升:质量、通用性和生成可理解语音内容的能力

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值