PnG BERT - 用于TTS的预训练BERT模型(变种)


在这里插入图片描述
本文提出了一种BERT变种,PngBert是google在interspeech 2021提出的一种可以用做TTS encoder的预训练模型。
该模型在BERT基础上,添加了字素信息和字素位置信息,在修改了mask方式,并用大数据量预训练模型,冻结底层参数之后,与TTS联合训练,作为TTS Encoder, 从而提升韵律和自然度。

模型结构

BERT等语言学信息添加到TTS训练过程是一个较早就开始使用的用于提升合成自然度或者韵律的方式。包括使用 word embedding, bert, 结构信息等等。本文的亮点在于,基于前期学术成果基础上,直接将Bert作为TTS encoder训练TTS, 并且Bert加入字素信息。

左图是Png BERT模型训练过程:

  • 与BERT区别在于两个红色方框,添加了word position, 并将 text_b 替换成了字素,并且音素和字素使用了一个编码空间。
  • 音素是IPA, 字素则是其他分词或者切分工具的输出结果。
  • 对于word position的phone部分,做了word alignment,对于字素部分,应该是将整个字素串作为同一个编码。
  • 对BERT的mask方式也做了更改,这里添加mask的时候,音素和字素是同步的(consistently masking),也就是说mask音素也会mask掉对应的字素。

右图是与TTS一同fine-tune的训练过程:

  • Png BERT用的是6层8头attention, finetune时冻结前四层,后两层与TTS一起训练,
  • 并且Png BERT的输出仅使用音素部分作为TTS Encoder的输出,
  • fine-tune期间, mask language model的损失函数不再使用,
  • TTS用的是NAT。
    在这里插入图片描述

实验及结果分析

Table 1对预训练模型做了消融实验,在删除了consisting masking 和 word alignment之后,模型精度迅速提高,也就是删除这两个音素,模型会变得非常容易训练,这是因为音素和字素如果是分别mask, 那么在预测MSK时,可以根据另一部分的信息很容易预测出MSK, 模型偷懒不是件好事情。
在这里插入图片描述
作者也分析了预训练模型的对齐结果,越高层的layer, 越能学习到音素和字素之间的对齐,最上面的红线说明音素与字素是对齐的,中间说明音素自身是对齐的,右边的说明字素与音素是对齐的。
在这里插入图片描述
Table 2认为提出的系统在MOS上比baseline有优势,而且pretrain是十分必要的。Table 3说明提出的系统与GT的偏向性很小。
作者也提出,合成的音频有些效果很好,表现在音调,韵律,重音等等,有些音频比GT差,主要表现在重音等。也就是说,总体上该系统是提升了prosody和pronounce.
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值