多说话人Tacotron2

Hparams设置:

为了选择最佳的fft参数,我制作了一个griffin_lim_synthesis_tool笔记本, 您可以使用它来反转实际提取的梅尔/线性光谱图,并选择预处理的好坏程度。所有其他选项都在hparams.py中得到了很好的解释,并且具有有意义的名称,因此您可以尝试使用它们。

Preprocessing:

Preprocessing can then be started using:

python preprocess.py

dataset can be chosen using the --dataset argument. If using M-AILABS dataset, you need to provide the language, voice, reader, merge_books and book arguments for your custom need. Default is Ljspeech.

Example M-AILABS:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=False --book='northandsouth'

or if you want to use all books for a single speaker:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=True

This should take no longer than a few minutes.

https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/

https://github.com/carpedm20/multi-speaker-tacotron-tensorflow

突然想到speaker id可以加到decoder之后, 很多位置都加, 不只是加载decoder的输入. 目前没有思考怎么去反驳他在clone中的问题.

分析: 

可能本质上一样, 但是因为text encoder output没有去相关性. 

目前用最简单的加入到encoder output中, 不是拼接, 是加.

scp  -r username@192.168.0.1:/home/test2 /home/test1

还是使用了拼接. (256dim)有点大.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值