Speaker Encoder特点观察: Transfer Learning from Speaker Verification to Multispeaker TTS

本文探讨了Speaker Encoder在跨语言语音转文本合成(TTS)中的Transfer Learning应用,通过实验分析和科研流程,试图解决不同语言间的音色迁移问题。面临挑战包括选择稳定代表性的英文句子以及如何优化Speaker Embedding。提出的方法包括使用专家知识对Speaker Voice Embedding建模和限制transfer过程中的wav相似性。
摘要由CSDN通过智能技术生成

0. 说明

之前跑通了Transfer Learning from Speaker Verification to Multispeaker TTS论文下的Real Time Voice Clone, 想用它做跨语言的音色迁移, 以达到跨语言合成的效果

博客链接为: https://blog.csdn.net/u013625492/article/details/109738381

对于Speaker Encoder的观察太少, 需要

  1. 多做测试实验
  2. 对于Speaker Encoder更多的设计(如双语, 解耦特征, 特征可描述等)
  3. 训练语料(如双语言, 通用)
  4. 属于标准的base->问题->观察->思考->猜想->方案->验证的科研, 跟学源讨论下

比如下面图片的思路, 苹果的论文链接: https://arxiv.org/abs/2004.04972

1. 未整理的想法

头疼在于:

  1. 英文的句子, 不同, 那么送进去也不知道合成英文稳不稳定
  2. 那么多英文的句子, 不知道哪一个最能代表人的音色, 挑选(构建, 或者评测)不出来这个人最好的, 然后一直用
  3. 对于固定的英文的句子, 不知道哪一个句子提供transfer更好, 特别是因果关系是先有了transfer出来的speaker embeding, 接着才有了txt + speaker embedding -> wav
  4. 有时候中文句子会带来冲突, 有时候又没有冲突

方法:

  1. 将speaker encoder得到的speaker voice embedding向量再专家知识化建模, 比如分解为f0曲线, duration, 男女啥啥的, 做的细致一些, 解耦一些, 以及专家知识上跨语言一些
  2. 限制被transfer的wav和生成wav的关系, 比如一直迭代下去直到两个wav足够接近, 或者训练的时候就不用完全一样的wav, 而是使用ppg输入代替文本, transfer部分使用不连贯mel
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值