0. 说明
之前跑通了Transfer Learning from Speaker Verification to Multispeaker TTS论文下的Real Time Voice Clone, 想用它做跨语言的音色迁移, 以达到跨语言合成的效果
博客链接为: https://blog.csdn.net/u013625492/article/details/109738381
对于Speaker Encoder的观察太少, 需要
- 多做测试实验
- 对于Speaker Encoder更多的设计(如双语, 解耦特征, 特征可描述等)
- 训练语料(如双语言, 通用)
- 属于标准的base->问题->观察->思考->猜想->方案->验证的科研, 跟学源讨论下
比如下面图片的思路, 苹果的论文链接: https://arxiv.org/abs/2004.04972
1. 未整理的想法
头疼在于:
- 英文的句子, 不同, 那么送进去也不知道合成英文稳不稳定
- 那么多英文的句子, 不知道哪一个最能代表人的音色, 挑选(构建, 或者评测)不出来这个人最好的, 然后一直用
- 对于固定的英文的句子, 不知道哪一个句子提供transfer更好, 特别是因果关系是先有了transfer出来的speaker embeding, 接着才有了txt + speaker embedding -> wav
- 有时候中文句子会带来冲突, 有时候又没有冲突
方法:
- 将speaker encoder得到的speaker voice embedding向量再专家知识化建模, 比如分解为f0曲线, duration, 男女啥啥的, 做的细致一些, 解耦一些, 以及专家知识上跨语言一些
- 限制被transfer的wav和生成wav的关系, 比如一直迭代下去直到两个wav足够接近, 或者训练的时候就不用完全一样的wav, 而是使用ppg输入代替文本, transfer部分使用不连贯mel