VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

abstract

  • motivation:将大数据训练语言模型的方法引入到TTS中,通过极大的数据量进行in-context learning,借鉴prompt-based approaches思路,3s的注册音频实现unseen speaker的音色复刻。

  • 数据集:LibriLight数据集,60k hours,7k speaker,纯音频数据,通过ASR转录出文本。相比于LibriTTS这样的数据,本文的音频数据带噪,转录文本有误差,但是说话人的多样性、包括韵律多样性更多。

  • 效果demo
    在这里插入图片描述

  • 和传统TTS的流程:phn-mel-wav 不一样,vall-E输入phn和acoustic code prompt,生成discrete audio codec codes ,然后通过解码器声成音频。普通语音合成任务无法使用网上爬取的数据,但是如果使用了足够多的各种各样的数据,有可能爬虫数据对整体性能的损失就没有了(本文的工作就论证了这一点,将speech任务处理成audio任务)。
    在这里插入图片描述

speech quantization

在这里插入图片描述

  • audio是16bit 整数值,因此每个时间步需要预测的概率 2 16 = 65536 2^{16}=65536 216=65536,而音频1s通常24k/48 steps,会导致采样点合成的过程非常长&复杂。因此,需要语音量化以压缩整形数值&序列长度。u-law算法把每个时间步的预测概率压缩到256维度,但是没有压缩时间步数。vector quantization的方法不仅压缩单个时间的概率维度,也对时间步进行压缩,因此速度会更快。

  • 使用neutral codec对speech进行量化成离散的tokens,此过程可逆,也可以将discrete tokens反变换成高质量音频。neutral codec相比于其他量化方法优点在于:(1)相比于HuBert embedding,包含充分的说话人信息和声学信息。(2)有现成的codec decoder,不需要像VQ-based方法重新训练vocoder;(3)相比于 μ − l a w \mu-law μlaw变换,所需的steps更少,效率更高。

  • 使用预训练的==EnCodec==作为tokenizer。输入speech采样率24kHz,经过模型将采样320倍,变成75Hz。模型是8个层级结构的CNN-residualVQ。第一维是global信息(音色,声道),后7维是细粒度的phn以及其他相关的信息,这么说是与使用的预训练模型自己训练时候的8维target提取方式有关(audioLM图,SoudnStream+wav2vecBERT)

  • 输入10s的音频,输出是75*10=750 * 8的离散特征矩阵

Problem Formulation: Regarding TTS as Conditional Codec Language Modeling

  • 预训练的codec model,从audio中提取离散编码作为target- C t a r C^{tar} Ctar;phn作为文本输入 x x x,enroll speech经过encodec得到离散编码 C s r c C^{src} Csrc作为condition控制音色
  • 训练模型 m a x P ( C t a r ∣ x , C s r c ) max P(C^{tar}|x,C^{src}) maxP(Ctarx,Csrc)

training:conditional codec LM

在这里插入图片描述

  • codec的设计是层级结构,8维提取的编码是residual-info的信息,越靠后的量化器关注更细节的内容;——因此认为,前几维更多关注音色这样全局的信息,后几维关注声学细节的信息;
  • 本文设计的language model也是一个层级结构,而且two conditional language models(phn,acoustic prompt)。

AR-codec LM:acoustic prompt

  • codec的第一维拿来自回归的预测第一维的信息(说话人身份相关),是一种因果语言模型训练的方式。
    在这里插入图片描述
  • phn序列和acoustic prompt拼接,经过AR-transformer序列化的预测 c t c_t ct,时长对齐也是在这个阶段完成的。类似于tacotron。
  • x x x c : , 1 c_{:,1} c:,1拼接,每个后边有标记,每个计算sin position,,每一步生成的 c t , 1 c_{t,1} ct,1拼接到下一步的输入上。

NAR-codec LM:fine acoustic prompt

在这里插入图片描述

  • 对于第i个codec,输入是在这里插入图片描述

  • 其中, e c e_c ec是前(i-1) c i c_i ci和project weight乘积的累加和。
    在这里插入图片描述

  • 预测好的8维codec,送入decodec中,用于波形重建。

Inference: In-Context Learning via Prompting

  • 在TTS任务中,如果能够合成unseen speaker的语音,就说明模型有 In-Context Learning的能力
  • 对于AR模型,使用sampling-based decoding,因为:(1)beam search会使模型进入无限循环,(2)sampling-based method可以增强输出的多样性;
  • 对于NAR模型,使用greedy decoding,选择概率最高的。
  • acoustic prompt可能不是语义相关的,主要因为:
    • vall-e:phone prompt是enroll speech的转录和真正要合成文本的音素拼接;预测出第一维的acoustic token作为acoustic prefix,

experiment

  • training: 音频随机选取10-20s,对应的文本作为phn prompt,这句话随机选3s作为acoustic prompt
  • 机器资源:16张V100,batch_size=6k ,800k step. lr warm up到32k,然后线性衰减
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值