VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

林林宋

已于 2023-04-28 15:24:50 修改

阅读量2.3k

点赞数 1

分类专栏： paper笔记文章标签：大数据自然语言处理人工智能

于 2023-01-13 17:25:43 首次发布

本文链接：https://blog.csdn.net/qq_40168949/article/details/128644419

版权

163 篇文章

订阅专栏

motivation：将大数据训练语言模型的方法引入到TTS中，通过极大的数据量进行in-context learning，借鉴prompt-based approaches思路，3s的注册音频实现unseen speaker的音色复刻。
数据集：LibriLight数据集，60k hours，7k speaker，纯音频数据，通过ASR转录出文本。相比于LibriTTS这样的数据，本文的音频数据带噪，转录文本有误差，但是说话人的多样性、包括韵律多样性更多。
效果demo
和传统TTS的流程：phn-mel-wav 不一样，vall-E输入phn和acoustic code prompt，生成discrete audio codec codes ，然后通过解码器声成音频。普通语音合成任务无法使用网上爬取的数据，但是如果使用了足够多的各种各样的数据，有可能爬虫数据对整体性能的损失就没有了（本文的工作就论证了这一点，将speech任务处理成audio任务）。

在这里插入图片描述

audio是16bit 整数值，因此每个时间步需要预测的概率 $2^{16}=65536$ ,而音频1s通常24k/48 steps，会导致采样点合成的过程非常长&复杂。因此，需要语音量化以压缩整形数值&序列长度。u-law算法把每个时间步的预测概率压缩到256维度，但是没有压缩时间步数。vector quantization的方法不仅压缩单个时间的概率维度，也对时间步进行压缩，因此速度会更快。
使用neutral codec对speech进行量化成离散的tokens，此过程可逆，也可以将discrete tokens反变换成高质量音频。neutral codec相比于其他量化方法优点在于：（1）相比于HuBert embedding，包含充分的说话人信息和声学信息。（2）有现成的codec decoder，不需要像VQ-based方法重新训练vocoder；（3）相比于 $\mu-law$ 变换，所需的steps更少，效率更高。
使用预训练的==EnCodec==作为tokenizer。输入speech采样率24kHz，经过模型将采样320倍，变成75Hz。模型是8个层级结构的CNN-residualVQ。第一维是global信息（音色，声道），后7维是细粒度的phn以及其他相关的信息，这么说是与使用的预训练模型自己训练时候的8维target提取方式有关（audioLM图，SoudnStream+wav2vecBERT）
输入10s的音频，输出是75*10=750 * 8的离散特征矩阵

预训练的codec model，从audio中提取离散编码作为target- $C^{tar}$ ；phn作为文本输入 $x$ ，enroll speech经过encodec得到离散编码 $C^{src}$ 作为condition控制音色
训练模型 $max P(C^{tar}|x,C^{src})$

在这里插入图片描述

codec的设计是层级结构，8维提取的编码是residual-info的信息，越靠后的量化器关注更细节的内容；——因此认为，前几维更多关注音色这样全局的信息，后几维关注声学细节的信息；
本文设计的language model也是一个层级结构，而且two conditional language models（phn,acoustic prompt)。

codec的第一维拿来自回归的预测第一维的信息（说话人身份相关），是一种因果语言模型训练的方式。
phn序列和acoustic prompt拼接，经过AR-transformer序列化的预测 $c_t$ ，时长对齐也是在这个阶段完成的。类似于tacotron。
$x$ 和 $c_{:,1}$ 拼接，每个后边有标记，每个计算sin position，，每一步生成的 $c_{t,1}$ 拼接到下一步的输入上。

在这里插入图片描述

在TTS任务中，如果能够合成unseen speaker的语音，就说明模型有 In-Context Learning的能力
对于AR模型，使用sampling-based decoding，因为：（1）beam search会使模型进入无限循环，（2）sampling-based method可以增强输出的多样性；
对于NAR模型，使用greedy decoding，选择概率最高的。
acoustic prompt可能不是语义相关的，主要因为：
- vall-e：phone prompt是enroll speech的转录和真正要合成文本的音素拼接；预测出第一维的acoustic token作为acoustic prefix，