Google: Voice clone and code-switching cross multi-language
1.再仔细读一遍google论文中的language id和speaker id送入Decoder大结构的细节.
目前用法可能比较弱, 使得音质不好, 或者口音clone不好, 但如没有说明, 则目前版本可以代表复现版本, 再加上另一篇(好多处加结构的对比试验), 可以言之有理. 追求平等/控制变量的话, 以后的实验language id也较弱使用, 然后多跑一个强使用language id的就行. 并且要参考DeepVoice2和interspeech19的那篇对比位置的.
Paper augments the base Tacotron 2 model with additional speaker and, optionally, language embedding inputs (bottom right), an adversarially-trained speaker classifier (top right), and a varia-tional autoencoder-style residual encoder (top left) which con-ditions the decoder on a latent embedding computed from the target spectrogram during training (top left). Finally, similar to Tacotron 2, we separately train a WaveRNN
首先, 没说明白speaker id, language id的具体用法.
optionally: 说明有的时候他是没有用的, 换句话说, paper着重于口音是通过adLoss来的. 是和绑定的解释性文本有关的, 和我们的factor思路并不完全一致.
2. 总是在音色clone, 口音clone的刚开始阶段不好, 容易"窜频道"到另一个, 需要特殊处理.
3. 实验1: no_vae_no_ref_has_language: 音色+口音绑定到了一起, 音色clone很好, 但是口音不能实现clone, 并且会影响到stop_token等的不良产生.
数据在v100文件夹下的output和外面的text文本. 训练到20w步 (目前版本的所有超参数和结构) 就不再训练了, 除非结构上和论文出入很大, 如1, 则目前默认为复现实验成功反馈出了单语单人不能解绑, 但音色(+口音)可clone的事实.
CUHK: LDE and SPE for code-switching
1. CBHG-T1版本的训练很慢, 是因为CBHG很慢吗, 那是不是后端取消了post_net就会训练得更快. 然后阻止post_net回传的技巧也还没有关注. 先总结别的实验.
虽然LDE和SPE结构有些不同, 但是差的有点多, v100更慢, 很奇怪. 有空都在lab10跑跑. 可能是因为一个GPU拆开了跑的原因.
2. 为什么写代码的时候是错的, 就是cbhg叫一个名字, 但是训练时候可以, 合成的时候就不可以了.
Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at
结论: 在训练的时候, 采用的是tf.AUTO_REUSE, 而合成的时候, 版本比较旧, 在create model那里, 套上tf.AUTO_REUSE就好了.
问题: 为啥改了之后有的有声音可辨识, 有的不能? 想着应该都可以的.
小技巧, 复制文件夹