MELLE: Autoregressive Speech Synthesis without Vector Quantization

MELLE: Autoregressive Speech Synthesis without Vector Quantization

abstract

  • 预测连续的mel spec代替预测VQ采样。
  • 难点在于:
    • 如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;
    • 如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
  • 实际上很像是回滚到tacotron的版本,直接预测mel,算MSE(mel)+KL(mel, embedding);只是用transformer decoder来完成AR的过程,没有用具体的一层attention 实现对齐。

method

在这里插入图片描述

  • 通过latent sampling module,将LLM的输出转换到直接预测mel spec,具体的实现方式如下

损失函数

在这里插入图片描述

  • 回归损失:其中 y y y是mel-spec 真值; y ′ y' y 是latent sampling module预测的mel spec; y ′ ′ y'' y′′ 是post-net 处理之后的mel spec
    在这里插入图片描述
  • KL loss:在生成质量和latent 空间归一上很有效果,也有助于改善mel的多样性和鲁棒性;没有把 z t z_t zt设置为标准高斯分布,而是 p ( z t ) p(z_t) p(zt) as N ( y t , I ) N(y_t,I) N(yt,I),简化模型优化路径
    在这里插入图片描述
  • Spectrogram Flux Loss:负向,惩罚生成多帧一致的结果,
    在这里插入图片描述
  • stop loss: 累计值,no stop 预测-1,stop 预测1,因为预测结果有很多个负值,因此给正值一个很大的权重(100)

Autoregressive Image Generation without Vector Quantization

abstract

  • motivation:VQ限制了图像生成的清晰度,因为像素本身是连续的值,是否可以不对图片进行量化,直接拟合连续的分布。
  • method:利用diffusion 强大的能力,用连续值而不是类别分布来建模自回归模型中下一个像素值的分布

methods

  • 虽然不需要量化,我们依然需要用自编码器来压缩图像,减少要生成的像素数。本工作依然采取了 VQ-VAE、VQGAN 那种两阶段的生成方式,只不过把 VQ 自编码器换成了用 KL loss 约束的 VAE。
  • 在每一步训练时,我们知道上下文像素是什么,也知道当前像素的真值是什么。那么,只要以上下文像素为约束,用当前像素的真值去训练一个带约束扩散模型就行了。作者把训练这种隐式描述下一个像素值分布的误差函数称为Diffusion Loss
    在这里插入图片描述

更好的AR model

在这里插入图片描述

results

在这里插入图片描述

  • 从第一大行可以看出,Diffusion Loss 似乎对标准自回归的改进不是很明显,且这一套方法的生成能力并不出色。只有把自回归模型逐渐改进后,Diffusion Loss 的效果才能逐渐体现出来。在后几行掩码自回归模型中,Diffusion Loss 的作用还是很大的。
  • 而对比前三大行,我们可以发现自回归模型的架构极大地提升了生成效果,且似乎将 Transformer 由 causal 改成 bidirect 的提升更加显著。
  • 第四大行相比第三大行,提升了每次预测的词元数,主要是为了加速。这两行的对比结果表明,做了这个加速操作后,模型生成能力并没有下降多少。后续实验都是基于第四行的配置。
  • 15
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自动控制节水灌溉技术的高低代表着农业现代化的发展状况,灌溉系统自动化水平较低是制约我国高效农业发展的主要原因。本文就此问题研究了单片机控制的滴灌节水灌溉系统,该系统可对不同土壤的湿度进行监控,并按照作物对土壤湿度的要求进行适时、适量灌水,其核心是单片机和PC机构成的控制部分,主要对土壤湿度与灌水量之间的关系、灌溉控制技术及设备系统的硬件、软件编程各个部分进行了深入的研究。 单片机控制部分采用上下位机的形式。下位机硬件部分选用AT89C51单片机为核心,主要由土壤湿度传感器,信号处理电路,显示电路,输出控制电路,故障报警电路等组成,软件选用汇编语言编程。上位机选用586型以上PC机,通过MAX232芯片实现同下位机的电平转换功能,上下位机之间通过串行通信方式进行数据的双向传输,软件选用VB高级编程语言以建立友好的人机界面。系统主要具有以下功能:可在PC机提供的人机对话界面上设置作物要求的土壤湿度相关参数;单片机可将土壤湿度传感器检测到的土壤湿度模拟量转换成数字量,显示于LED显示器上,同时单片机可采用串行通信方式将此湿度值传输到PC机上;PC机通过其内设程序计算出所需的灌水量和灌水时间,且显示于界面上,并将有关的灌水信息反馈给单片机,若需灌水,则单片机系统启动鸣音报警,发出灌水信号,并经放大驱动设备,开启电磁阀进行倒计时定时灌水,若不需灌水,即PC机上显示的灌水量和灌水时间均为0,系统不进行灌水。
v1 v2 ham Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat... ham Ok lar... Joking wif u oni... spam Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's ham U dun say so early hor... U c already then say... ham Nah I don't think he goes to usf, he lives around here though spam FreeMsg Hey there darling it's been 3 week's now and no word back! I'd like some fun you up for it still? Tb ok! XxX std chgs to send, 螢1.50 to rcv ham Even my brother is not like to speak with me. They treat me like aids patent. ham As per your request 'Melle Melle (Oru Minnaminunginte Nurungu Vettam)' has been set as your callertune for all Callers. Press *9 to copy your friends Callertune spam WINNER!! As a valued network customer you have been selected to receivea 螢900 prize reward! To claim call 09061701461. Claim code KL341. Valid 12 hours only. spam Had your mobile 11 months or more? U R entitled to Update to the latest colour mobiles with camera for Free! Call The Mobile Update Co FREE on 08002986030 ham I'm gonna be home soon and i don't want to talk about this stuff anymore tonight, k? I've cried enough today. spam SIX chances to win CASH! From 100 to 20,000 pounds txt> CSH11 and send to 87575. Cost 150p/day, 6days, 16+ TsandCs apply Reply HL 4 info 以上格式的数据有3000条,运用朴素贝叶斯模型对以上格式的垃圾邮件进行分析,并写出详细代码
05-30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值