若干文章

最新推荐文章于 2023-11-12 11:35:54 发布

赫凯

最新推荐文章于 2023-11-12 11:35:54 发布

阅读量509

点赞数

分类专栏： # 论文阅读

本文链接：https://blog.csdn.net/u010095372/article/details/105955960

版权

论文阅读专栏收录该内容

18 篇文章 2 订阅

订阅专栏

bert

guide attention
Monotonic Attention
Location-awar attention

DCA

Fast Speech

文章目录

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis 2018

在这里插入图片描述
就把情绪信息和说话人的信息，添加在embedding里，词嵌入，之后的decoder该怎么训还怎么训

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron 2018

在这里插入图片描述
增加了训练的输入，韵律的输入+说话人的输入+文字的输入

HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE SPEECH SYNTHESIS 2018

引入变分自动编码器 VAE ，从嘈杂的数据中提出潜在的特性。对于VAE网上讲的特别多，我最浅显的理解就是，我拿到了一些X，然后我要生成和X相似的数据，我假设有个公式 F(Z) = X，我现在的目的就是基于观测到的X，去反推隐藏的Z以及F(Z)的式子，要是可以的话，那我就可以生成无限个和X相似的X了。替换到语音的话，就是拿到语音，找到其背后的推手，然后再用这个推手去生成，这样就不愁可以控制了，我可以控制其隐藏的Z从而达到控制X的目的，但这个是不可以预估的，有惊喜。

Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis 20190404

百度的一篇，GST，之前的input只有文字，现在加入了一些声音信息，用了多头注意力，更加厉害。
在这里插入图片描述
风格由三个音素控制：说话人、情绪、韵律。有三百个不同的说话人；有喜怒哀乐等情绪；有新闻故事广播等不同韵律。

MULTI-REFERENCE NEURAL TTS STYLIZATION WITH ADVERSARIAL CYCLE CONSISTENCY 20191125

在这里插入图片描述
同时嵌入音频1和音频2，交叉起来更厉害

MELLOTRON: MULTISPEAKER EXPRESSIVE VOICE SYNTHESIS BY CONDITIONING ON RHYTHM, PITCH AND GLOBAL STYLE TOKENS 20191126

在标准的数据里弄，合成唱歌，一种显式变量：文本、说话者id、音高轮廓；一种是隐藏变量：节奏、GTS。
在这里插入图片描述
音高轮廓用 Alain De Cheveigné and Hideki Kawahara, “Yin, a fun-damental frequency estimator for speech and music,” The Journal of the Acoustical Society of America, vol. 111, no. 4, pp. 1917–1930, 2002. 或者 Justin Salamon and Emilia Gómez, “Melody extraction from polyphonic music signals using pitch contour char- acteristics,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 6, pp. 1759–1770, 2012. 获取。