复现两篇论文, 结构实现细节进行说明.代码备份, 报告完成并备份.

Google: Voice clone and code-switching cross multi-language

 

1.再仔细读一遍google论文中的language id和speaker id送入Decoder大结构的细节.

目前用法可能比较弱, 使得音质不好, 或者口音clone不好, 但如没有说明, 则目前版本可以代表复现版本, 再加上另一篇(好多处加结构的对比试验), 可以言之有理. 追求平等/控制变量的话, 以后的实验language id也较弱使用, 然后多跑一个强使用language id的就行. 并且要参考DeepVoice2和interspeech19的那篇对比位置的.

Paper augments the base Tacotron 2 model with additional speaker and, optionally, language embedding inputs (bottom right), an adversarially-trained speaker classifier (top right), and a varia-tional autoencoder-style residual encoder (top left) which con-ditions the decoder on a latent embedding computed from the target spectrogram during training (top left). Finally, similar to Tacotron 2, we separately train a WaveRNN

首先, 没说明白speaker id, language id的具体用法.

optionally: 说明有的时候他是没有用的, 换句话说, paper着重于口音是通过adLoss来的. 是和绑定的解释性文本有关的, 和我们的factor思路并不完全一致.

2. 总是在音色clone, 口音clone的刚开始阶段不好, 容易"窜频道"到另一个, 需要特殊处理.

3. 实验1: no_vae_no_ref_has_language: 音色+口音绑定到了一起, 音色clone很好, 但是口音不能实现clone, 并且会影响到stop_token等的不良产生. 

数据在v100文件夹下的output和外面的text文本. 训练到20w步 (目前版本的所有超参数和结构) 就不再训练了, 除非结构上和论文出入很大, 如1, 则目前默认为复现实验成功反馈出了单语单人不能解绑, 但音色(+口音)可clone的事实. 

CUHK: LDE and SPE for code-switching

 

1. CBHG-T1版本的训练很慢, 是因为CBHG很慢吗, 那是不是后端取消了post_net就会训练得更快. 然后阻止post_net回传的技巧也还没有关注. 先总结别的实验.

虽然LDE和SPE结构有些不同, 但是差的有点多, v100更慢, 很奇怪. 有空都在lab10跑跑.   可能是因为一个GPU拆开了跑的原因.

2. 为什么写代码的时候是错的, 就是cbhg叫一个名字, 但是训练时候可以, 合成的时候就不可以了.

Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at

结论: 在训练的时候, 采用的是tf.AUTO_REUSE, 而合成的时候, 版本比较旧, 在create model那里, 套上tf.AUTO_REUSE就好了.

问题: 为啥改了之后有的有声音可辨识, 有的不能? 想着应该都可以的.

小技巧, 复制文件夹

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值