简单的基于Tacotron2的中英文混语言合成, 包括code-switch和voice clone. 以及深入结构设计的探讨.

之前的讨论

33. 韵律评测, 很重要. https://zhuanlan.zhihu.com/p/43240701

34. 复现了Tacotron2 中文和英文 单语言合成, 音质满足期望(忽略inference时间), 下一步方向在哪里, 如果想Expressive, 靠谱的方法有什么经验吗, 同时我尝试下混语言:

expressive最简单用look up table就可以,不过需要标注,继续深化就是vae系列了,比如gmvae,木神应该更加熟悉这些东西,mixlingual现在看来有数据就能做,不过跨说话人的话,可能vocoder的影响就会变得很大

Expressive, 如果有标注的话, 就类似于,speaker id, 之后用look up table, 这个我去找找有没有论文/数据集, 跑跑试试;
VAE (Encoder) 作为prosody Encoder, 这个应该是也要尝试的, 虽然对于VAE我.....;
mixlingual/cross-lingual 双语同人数据集有的话, 直接正常训练, 不涉及speaker id和language id, 这个看看有没有数据集 (或者把LJSPeech和标贝当成一个人), 但具体涉及到code-switching还有些细节 (比如训练数据switch的比例和测试语句相差很大);
跨语言说话人, 特别是一种语言只有一个说话人 (但是语料质量非常高),  如何做到voice clone, switch-coding, 确实是个难题, 但借助与VAE也可能有解决方法, 不过没有明白师兄说的"可能vocoder的影响就会变得很大"的含义, 是指的整个网络decoder端的网络设计吗

"可能vocoder的影响就会变得很大" 。我觉得是训练wavenet啥的,跟说话人关系比较大

翻翻王木师兄的论文了, 重音

举个例子啊,比如mixlingual的一句话: Amazon并购了Google

现在实际有两个说话人,一个英文说话人,一个中文说话人,然后训了一个multispeaker,multilingual的模型,在inference的时候,指定了中文说话人的ID,然后合成,这个时候英文部分的发音铁定不好,这个时候就需要靠vocoder的鲁棒性修了

就是英文从context text => aucostic feature会很难受, 因为他训练的时候没见过这个ID

但是网络还是会硬着去搞(找平衡), 这样的aucostic feature就不是那么完美, 需要vocoder来修

当然还有共享phone集这些办法

全共享phone这种, 其实音色迁移(统一)是很好的应该.

但是会丢掉每段语音内部自身语言的独特性(韵律, 口音, 发音)

总而言之任重道远

我其实设计了个很大的网络

 

 

步骤一: 尽量简单化的实现一个cross-language TTS, 直至state of art.

(到20号完成)

1. 直接使用最简单的text的group, 然后数据放到一起, 不加任何标记, 不加模型结构.

  • LJSpeech1.1 + 标贝.
  • 字母序列+拼音版本, 英文音素+声韵母版本都尝试. 工程性工作.
    • 音素版本的调调更加"抑扬", "优美", 先调查英文转成音标. 使用这个: https://github.com/Kyubyong/g2p 具体代码在下面的py转换脚本中.
    • Welcome Mr. Li Xiang to join in our human-computer speech interaction laboratory, we are a big family. 中文名字的发音? Mr. 是否可以.
    • tar -xjvf  httpd-2.4.4.tar.bz2
    • 安装ntlk的时候, 用arch版本, sudo pacman -S python-nltk  sudo pacman -S nltk-data
    • 使用from preprocess to phoneme
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值