PnG BERT - 用于TTS的预训练BERT模型（变种）

最新推荐文章于 2024-08-03 04:28:17 发布

GFward

最新推荐文章于 2024-08-03 04:28:17 发布

阅读量1.1k

点赞数 1

分类专栏：语音合成文章标签： bert 自然语言处理深度学习

本文链接：https://blog.csdn.net/CSDN_71560364126/article/details/120764355

版权

语音合成专栏收录该内容

16 篇文章 3 订阅

订阅专栏

文章目录

模型结构
实验及结果分析

本文提出了一种BERT变种，PngBert是google在interspeech 2021提出的一种可以用做TTS encoder的预训练模型。
该模型在BERT基础上，添加了字素信息和字素位置信息，在修改了mask方式，并用大数据量预训练模型，冻结底层参数之后，与TTS联合训练，作为TTS Encoder，从而提升韵律和自然度。

模型结构

BERT等语言学信息添加到TTS训练过程是一个较早就开始使用的用于提升合成自然度或者韵律的方式。包括使用 word embedding, bert, 结构信息等等。本文的亮点在于，基于前期学术成果基础上，直接将Bert作为TTS encoder训练TTS，并且Bert加入字素信息。

左图是Png BERT模型训练过程:

与BERT区别在于两个红色方框，添加了word position, 并将 text_b 替换成了字素，并且音素和字素使用了一个编码空间。
音素是IPA, 字素则是其他分词或者切分工具的输出结果。
对于word position的phone部分，做了word alignment，对于字素部分，应该是将整个字素串作为同一个编码。
对BERT的mask方式也做了更改，这里添加mask的时候，音素和字素是同步的（consistently masking），也就是说mask音素也会mask掉对应的字素。

右图是与TTS一同fine-tune的训练过程:

Png BERT用的是6层8头attention, finetune时冻结前四层，后两层与TTS一起训练，
并且Png BERT的输出仅使用音素部分作为TTS Encoder的输出，
fine-tune期间， mask language model的损失函数不再使用，
TTS用的是NAT。

实验及结果分析

Table 1对预训练模型做了消融实验，在删除了consisting masking 和 word alignment之后，模型精度迅速提高，也就是删除这两个音素，模型会变得非常容易训练，这是因为音素和字素如果是分别mask，那么在预测MSK时，可以根据另一部分的信息很容易预测出MSK，模型偷懒不是件好事情。
在这里插入图片描述
作者也分析了预训练模型的对齐结果，越高层的layer, 越能学习到音素和字素之间的对齐，最上面的红线说明音素与字素是对齐的，中间说明音素自身是对齐的，右边的说明字素与音素是对齐的。

Table 2认为提出的系统在MOS上比baseline有优势，而且pretrain是十分必要的。Table 3说明提出的系统与GT的偏向性很小。
作者也提出，合成的音频有些效果很好，表现在音调，韵律，重音等等，有些音频比GT差，主要表现在重音等。也就是说，总体上该系统是提升了prosody和pronounce.
在这里插入图片描述