MELLE: Autoregressive Speech Synthesis without Vector Quantization

MELLE: Autoregressive Speech Synthesis without Vector Quantization

abstract

  • 预测连续的mel spec代替预测VQ采样。
  • 难点在于:
    • 如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;
    • 如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
  • 实际上很像是回滚到tacotron的版本,直接预测mel,算MSE(mel)+KL(mel, embedding);只是用transformer decoder来完成AR的过程,没有用具体的一层attention 实现对齐。

method

在这里插入图片描述

  • 通过latent sampling module,将LLM的输出转换到直接预测mel spec,具体的实现方式如下

损失函数

在这里插入图片描述

  • 回归损失:其中 y y y是mel-spec 真值; y ′ y' y 是latent sampling module预测的mel spec; y ′ ′ y'' y′′ 是post-net 处理之后的mel spec
    在这里插入图片描述
  • KL loss:在生成质量和latent 空间归一上很有效果,也有助于改善mel的多样性和鲁棒性;没有把 z t z_t zt设置为标准高斯分布,而是 p ( z t ) p(z_t) p(zt) as N ( y t , I ) N(y_t,I) N(yt,I),简化模型优化路径
    在这里插入图片描述
  • Spectrogram Flux Loss:负向,惩罚生成多帧一致的结果,
    在这里插入图片描述
  • stop loss: 累计值,no stop 预测-1,stop 预测1,因为预测结果有很多个负值,因此给正值一个很大的权重(100)

Autoregressive Image Generation without Vector Quantization

abstract

  • motivation:VQ限制了图像生成的清晰度,因为像素本身是连续的值,是否可以不对图片进行量化,直接拟合连续的分布。
  • method:利用diffusion 强大的能力,用连续值而不是类别分布来建模自回归模型中下一个像素值的分布

methods

  • 虽然不需要量化,我们依然需要用自编码器来压缩图像,减少要生成的像素数。本工作依然采取了 VQ-VAE、VQGAN 那种两阶段的生成方式,只不过把 VQ 自编码器换成了用 KL loss 约束的 VAE。
  • 在每一步训练时,我们知道上下文像素是什么,也知道当前像素的真值是什么。那么,只要以上下文像素为约束,用当前像素的真值去训练一个带约束扩散模型就行了。作者把训练这种隐式描述下一个像素值分布的误差函数称为Diffusion Loss
    在这里插入图片描述

更好的AR model

在这里插入图片描述

results

在这里插入图片描述

  • 从第一大行可以看出,Diffusion Loss 似乎对标准自回归的改进不是很明显,且这一套方法的生成能力并不出色。只有把自回归模型逐渐改进后,Diffusion Loss 的效果才能逐渐体现出来。在后几行掩码自回归模型中,Diffusion Loss 的作用还是很大的。
  • 而对比前三大行,我们可以发现自回归模型的架构极大地提升了生成效果,且似乎将 Transformer 由 causal 改成 bidirect 的提升更加显著。
  • 第四大行相比第三大行,提升了每次预测的词元数,主要是为了加速。这两行的对比结果表明,做了这个加速操作后,模型生成能力并没有下降多少。后续实验都是基于第四行的配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值