- BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe 我们引入一个叫做BERT的模型,全称为“来自Transformer的双向编码表征。不同于最近的语言表征模型,BERT通过在所有层面调控左右语境,对无标签文本预训练,得到深度双向表征。
- 知乎有关BERT
- 知乎有关预训练
- 混合音素BERT:TTS中用混合音素和sup音素表征来优化BERTTTS中的音素编码器可以通过BERT预训练来优化。但这种做法用的是以character为输入单位,和微调阶段用音素作为输入单位不一致。只用音素作为输入可以减少输入的不一致,但由于有限的音素数量,我们不能为丰富的表征和语义信息建模。
…sup音素指的是一组相邻的音素,并且不一定和词汇相符【注:即是说形式上不一定是和词的形态一致?是纯音素的组合】。受到处理OOV词的字节对编码(BPE)启发,我们将BPE用于把每个词编码为一个及以上的sup音素token,并的到最后的sup音素。【sup音素是音素的组合,并附标在音素上,提示音素的上下文。】 - 用以提升带有grapheme预测的TTS韵律的音素级BERT本文提出音素级BERT(PL-BERT),前置任务是预测相应的graphemes和被蒙住的音素
- 端到端带BERT的蒙板/掩码(masked)语言模型Masked语言模型是一个填空任务,模型使用蒙板上下文词
- 日式英语语音识别音素符号集设计
- 字母和音素作为S2S语音合成模型的输入TTS的神经S2S模型会将字母或音素作为输入序列。对许多语言来说,音素和听觉信号有更加直接的联系,对音质的提升有较大影响。但是从文本生成音素转写需要昂贵的词典以及容能错的G2P模型,且对于字母使用的相对优化还有待量化。为了解决这个问题,我们假设输入为字母的S2S模型必须隐形地学到G2P转换的内部对应物,且不可避免地产生错误。这样的模型因此能够被视为具有不精确音素输入的S2S。为了量化这种不精确性,我们比较了字母输入的S2S模型,和几个在不同程度错误音素转写上训练的音素输入S2S模型。我们发现,我们的字母输入系统和具有25%错误的音素输入系统是等价的。此外,我们还发现对于音素输入系统来说,15%的词token有误和具有0错误没有显著区别。这意味着,使用G2P预测占训练数据15%的OOV词是可接受的,因此无需对每个新数据集手工增加OOV词典。
【阅读】BERT,预训练,sup音素级别,音素级
最新推荐文章于 2024-10-22 14:53:29 发布