【阅读】BERT，预训练，sup音素级别，音素级

最新推荐文章于 2024-10-22 14:53:29 发布

tektsy

最新推荐文章于 2024-10-22 14:53:29 发布

阅读量256

点赞数

分类专栏： TTS 文章标签： bert 人工智能深度学习

本文链接：https://blog.csdn.net/ndz2020/article/details/130619320

版权

TTS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe 我们引入一个叫做BERT的模型，全称为“来自Transformer的双向编码表征。不同于最近的语言表征模型，BERT通过在所有层面调控左右语境，对无标签文本预训练，得到深度双向表征。
知乎有关BERT
知乎有关预训练
混合音素BERT：TTS中用混合音素和sup音素表征来优化BERTTTS中的音素编码器可以通过BERT预训练来优化。但这种做法用的是以character为输入单位，和微调阶段用音素作为输入单位不一致。只用音素作为输入可以减少输入的不一致，但由于有限的音素数量，我们不能为丰富的表征和语义信息建模。
…sup音素指的是一组相邻的音素，并且不一定和词汇相符【注：即是说形式上不一定是和词的形态一致？是纯音素的组合】。受到处理OOV词的字节对编码（BPE）启发，我们将BPE用于把每个词编码为一个及以上的sup音素token，并的到最后的sup音素。【sup音素是音素的组合，并附标在音素上，提示音素的上下文。】
用以提升带有grapheme预测的TTS韵律的音素级BERT本文提出音素级BERT（PL-BERT），前置任务是预测相应的graphemes和被蒙住的音素
端到端带BERT的蒙板/掩码（masked）语言模型Masked语言模型是一个填空任务，模型使用蒙板上下文词
日式英语语音识别音素符号集设计
字母和音素作为S2S语音合成模型的输入TTS的神经S2S模型会将字母或音素作为输入序列。对许多语言来说，音素和听觉信号有更加直接的联系，对音质的提升有较大影响。但是从文本生成音素转写需要昂贵的词典以及容能错的G2P模型，且对于字母使用的相对优化还有待量化。为了解决这个问题，我们假设输入为字母的S2S模型必须隐形地学到G2P转换的内部对应物，且不可避免地产生错误。这样的模型因此能够被视为具有不精确音素输入的S2S。为了量化这种不精确性，我们比较了字母输入的S2S模型，和几个在不同程度错误音素转写上训练的音素输入S2S模型。我们发现，我们的字母输入系统和具有25%错误的音素输入系统是等价的。此外，我们还发现对于音素输入系统来说，15%的词token有误和具有0错误没有显著区别。这意味着，使用G2P预测占训练数据15%的OOV词是可接受的，因此无需对每个新数据集手工增加OOV词典。