Fantasy Mix-Lingual Tacotron Version 4: Google-ZYX-Phoneme-HCSI-DBMIX 调整LID

最新推荐文章于 2024-07-22 14:35:56 发布

ruclion

最新推荐文章于 2024-07-22 14:35:56 发布

阅读量132

点赞数

分类专栏：研三-语音合成论文文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013625492/article/details/111690510

版权

157 篇文章 27 订阅

订阅专栏

0. 说明

VAE + LID效果目前是最好的, 将LID调整下, 不在decoder拼接LID, 在encoder_output处拼接

有以下方案

speaker emb和residual仍然在decoder拼接, 只LID在前面
speaker emb和residual放在前面与否, 仅仅是被query的内容不同; 而根据query为声学特征, memory为文本特征, 放在后面更好, 或者说没必要多尝试. ~~全部提到前面, 但是否掉这个, 因为speaker 信息放在decoder部分加, 是挺好的, 也可以影响到alignment的, 并且保证了text encoding中统一对TXT进行分析~~
Language放前面, 统一经过RNN Encoder, 尝试这个分支思路的话, 带上residual phoneme的那版论文, 应该是谢磊老师的Phoneme-informed attention-"Building a mixed-lingual neural TTS system with only monolingual data"论文, 先不做

其实也是有问题的, RNN会不会把Phoneme整错位了, LID用不用直接拼接到phoneme embedding上; 不过差别还挺大的, 因为拼接到encoder_output, 很强的语言信息了

同时把 Fantasy Mix-Lingual Tacotron Version 5也复现一版LID在前面的

中文训练语料一定以.结束, 所以后面跟的有10

英文训练语料一定会以.结束, 所以后面跟的有11

对应于~的地方, 加一个assert

对于tone_stress和language id, 分别以12和2作为padding占位符, 再加上会encoder_mask, 所以挺严谨的

对应: speaker emb和residual仍然在decoder拼接, 只LID在前面

并且LID是拼接在经过encoder之后的向量中, 而不是在phoneme变成embedding的地方

关注

专栏目录