【阅读】BERT,预训练,sup音素级别,音素级

  • BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe 我们引入一个叫做BERT的模型,全称为“来自Transformer的双向编码表征。不同于最近的语言表征模型,BERT通过在所有层面调控左右语境,对无标签文本预训练,得到深度双向表征。
  • 知乎有关BERT
  • 知乎有关预训练
  • 混合音素BERT:TTS中用混合音素和sup音素表征来优化BERTTTS中的音素编码器可以通过BERT预训练来优化。但这种做法用的是以character为输入单位,和微调阶段用音素作为输入单位不一致。只用音素作为输入可以减少输入的不一致,但由于有限的音素数量,我们不能为丰富的表征和语义信息建模。
    …sup音素指的是一组相邻的音素,并且不一定和词汇相符【注:即是说形式上不一定是和词的形态一致?是纯音素的组合】。受到处理OOV词的字节对编码(BPE)启发,我们将BPE用于把每个词编码为一个及以上的sup音素token,并的到最后的sup音素。【sup音素是音素的组合,并附标在音素上,提示音素的上下文。】
  • 用以提升带有grapheme预测的TTS韵律的音素级BERT本文提出音素级BERT(PL-BERT),前置任务是预测相应的graphemes和被蒙住的音素
  • 端到端带BERT的蒙板/掩码(masked)语言模型Masked语言模型是一个填空任务,模型使用蒙板上下文词
  • 日式英语语音识别音素符号集设计
  • 字母和音素作为S2S语音合成模型的输入TTS的神经S2S模型会将字母或音素作为输入序列。对许多语言来说,音素和听觉信号有更加直接的联系,对音质的提升有较大影响。但是从文本生成音素转写需要昂贵的词典以及容能错的G2P模型,且对于字母使用的相对优化还有待量化。为了解决这个问题,我们假设输入为字母的S2S模型必须隐形地学到G2P转换的内部对应物,且不可避免地产生错误。这样的模型因此能够被视为具有不精确音素输入的S2S。为了量化这种不精确性,我们比较了字母输入的S2S模型,和几个在不同程度错误音素转写上训练的音素输入S2S模型。我们发现,我们的字母输入系统和具有25%错误的音素输入系统是等价的。此外,我们还发现对于音素输入系统来说,15%的词token有误和具有0错误没有显著区别。这意味着,使用G2P预测占训练数据15%的OOV词是可接受的,因此无需对每个新数据集手工增加OOV词典。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值