复现两篇论文, 结构实现细节进行说明.代码备份, 报告完成并备份.

最新推荐文章于 2024-06-24 10:16:48 发布

ruclion

最新推荐文章于 2024-06-24 10:16:48 发布

阅读量1k

点赞数

分类专栏：研二-语音合成研二-Maybe 文章标签：语音合成跨语言 Tacotron

本文链接：https://blog.csdn.net/u013625492/article/details/102139050

版权

本文详细探讨了Google的语音克隆和跨多语言技术，研究了language id和speaker id在Decoder结构中的作用，以及在音色和口音克隆初期可能出现的问题。同时，复现了CUHK关于代码切换的研究，分析了CBHG模块的训练速度和post_net的影响。通过实验，发现单语单人数据集难以解绑音色和口音，而多说话人数据集和增强speaker id或许能改善这一情况。

摘要由CSDN通过智能技术生成

Google: Voice clone and code-switching cross multi-language

1.再仔细读一遍google论文中的language id和speaker id送入Decoder大结构的细节.

目前用法可能比较弱, 使得音质不好, 或者口音clone不好, 但如没有说明, 则目前版本可以代表复现版本, 再加上另一篇(好多处加结构的对比试验), 可以言之有理. 追求平等/控制变量的话, 以后的实验language id也较弱使用, 然后多跑一个强使用language id的就行. 并且要参考DeepVoice2和interspeech19的那篇对比位置的.

Paper augments the base Tacotron 2 model with additional speaker and, optionally, language embedding inputs (bottom right), an adversarially-trained speaker classifier (top right), and a varia-tional autoencoder-style residual encoder (top left) which con-ditions the decoder on a latent embedding computed from the target spectrogram during training (top left). Finally, similar to Tacotron 2, we separately train a WaveRNN

首先, 没说明白speaker id, language id的具体用法.

optionally: 说明有的时候他是没有用的, 换句话说, paper着重于口音是通过adLoss来的. 是和绑定的解释性文本有关的, 和我们的factor思路并不完全一致.

2. 总是在音色clone, 口音clone的刚开始阶段不好, 容易"窜频道"到另一个, 需要特殊处理.

3. 实验1: no_vae_no_ref_has_language: 音色+口音绑定到了一起, 音色clone很好, 但是口音不能实现clone, 并且会影响到stop_token等的不良产生.

数据在v100文件夹下的output和外面的text文本. 训练到20w步 (目前版本的所有超参数和结构) 就不再训练了, 除非结构上和论文出入很大, 如1, 则目前默认为复现实验成功反馈出了单语单人不能解绑, 但音色(+口音)可clone的事实.

CUHK: LDE and SPE for code-switching

1. CBHG-T1版本的训练很慢, 是因为CBHG很慢吗, 那是不是后端取消了post_net就会训练得更快. 然后阻止post_net回传的技巧也还没有关注. 先总结别的实验.

虽然LDE和SPE结构有些不同, 但是差的有点多, v100更慢, 很奇怪. 有空都在lab10跑跑. 可能是因为一个GPU拆开了跑的原因.

2. 为什么写代码的时候是错的, 就是cbhg叫一个名字, 但是训练时候可以, 合成的时候就不可以了.

Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at

结论: 在训练的时候, 采用的是tf.AUTO_REUSE, 而合成的时候, 版本比较旧, 在create model那里, 套上tf.AUTO_REUSE就好了.

问题: 为啥改了之后有的有声音可辨识, 有的不能? 想着应该都可以的.

小技巧, 复制文件夹

最低0.47元/天解锁文章

ruclion

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复现两篇论文, 结构实现细节进行说明.代码备份, 报告完成并备份.

Google: Voice clone and code-switching cross multi-language1.再仔细读一遍google论文中的language id和speaker id送入Decoder大结构的细节.目前用法可能比较弱, 使得音质不好, 或者口音clone不好, 但如没有说明, 则目前版本可以代表复现版本, 再加上另一篇(好多处加结构的对比试验), 可以...
复制链接

扫一扫

专栏目录