语音合成TTS
专注端到端语音合成,欢迎大家批评指正~
进击的小杨人
越努力,越不费力
展开
-
Learning latent representions for style control and transfer in end2end spech synthesis阅读笔记
2 Learning latent representions for style control and transfer in end2end spech synthesis主要贡献:在tacotron2中引入VAE以无监督方式来学习说话风格的潜在表达,以便于风格控制;通过VAE的recognition network来实现风格迁移(Style transfer);采用两种方法来避免Kullback-Leibler (KL) 收敛时爆炸的问题。模型整体结构:Recognition mo原创 2020-05-27 17:07:25 · 470 阅读 · 0 评论 -
自动编码器、变分自动编码器和条件变分自动编码器阅读理解
文章目录1 VAEs1.1 AE: AutoEncoder1.2 VAE: Variational AutoEncoder1.3 CVAE: Conditional Variational AutoencoderReferences:1 VAEs1.1 AE: AutoEncoder自动编码器,主要作用:数据去噪,可视化降维度,生成数据。模型结构:缺点:在inference时只能通过输入一个输入得到一个隐含变量Z,然后在通过Decoder生成,无法任意去构造隐含变量。1.2 VAE原创 2020-05-27 16:39:26 · 2317 阅读 · 0 评论 -
百度Deep Voice 1 2 3阅读笔记
7. Deep Voice: Real-time Neural Text-to-Speech文章于2017年3月发表Deep Voice是使用DNN开发的语音合成系统,主要思想是将传统参数语音合成中的各个模块使用神经网络来代替,包括以下五个模块:grapheme-to-phoneme转换模型:将输入本文转为phoneme序列;segmentation模型:定位音素边界;phoneme duration模型:预测phoneme持续时长;fundamental frequency模型:预测基频原创 2020-05-22 14:01:03 · 1612 阅读 · 0 评论 -
Transformer-TTS: Neural Speech Synthesis with Transformer Network阅读笔记
5. Transformer-TTS: Neural Speech Synthesis with Transformer Network文章于2019年1月发表Transformer-TTS可以看做Tacotron2+transformer的组合,作者认为优点主要为:通过移除RNN结构实现并行训练,因为解码器的输入序列的帧可以并行地提供。第二种是self-attention可以将整个序...原创 2020-04-26 18:08:45 · 2537 阅读 · 0 评论 -
Attention Is All You Need阅读笔记
4. Attention Is All You Need文章于2017年12月发表参见The Annotated Transformerhttp://nlp.seas.harvard.edu/2018/04/03/attention.html考虑到RNN(或者LSTM,GRU等)的计算是顺序的,RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:时间片 t 的...原创 2020-04-26 18:03:30 · 399 阅读 · 0 评论 -
Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS阅读笔记
Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS文章于2018年2月发表Tacotron2与Tacotron1对比,,模型基本框架相似,主要改变为:Encoder: 3层包含512个5X1滤波器的卷积层,一个双向512单元的LSTM层,来代替tacotron1中...原创 2020-04-22 17:17:02 · 1107 阅读 · 0 评论 -
DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS阅读笔记
2. DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS文章于2019年9月发表将DurIAN与Tacotron1对比,主要是放弃使用attention结构,使用一个单独的模型来预测alignment,从而来避免合成中出现的跳词重复等问题,DurIAN相当于一个去除Attention的Tacotron1,主...原创 2020-04-22 17:14:41 · 990 阅读 · 0 评论 -
Tacotron1: TOWARDS END-TO-END SPEECH SYNTHESIS阅读笔记
1. Tacotron1: TOWARDS END-TO-END SPEECH SYNTHESIS文章于2017年4月发表整体过程:Encoder: 输入Character, character embeddings;Pre-net, 一个带激活函数的DNN网络,其主要功能是对输入进行一系列的非线性的变换,进一步扩大输入空间;CBHG;conv bank + residual c...原创 2020-04-22 17:09:08 · 396 阅读 · 0 评论 -
Hierarchical Generative Modeling for Controllable Speech Synthesis笔记
文章目录可控语音合成的分层生成建模一、简介二、模型2.1 具有分层隐式变量的可控生成模型2.2 变分推论和训练2.3 显示分类标签的连续属性空间2.4 神经网络结构三、相关研究三、相关研究四、实验可控语音合成的分层生成建模本文提出了一种神经端到端文本到语音(TTS)模型,该模型可以控制生成的语音中潜在的属性,这些属性很少在训练数据中注释,例如说话风格,重音,背景噪声和记录条件。该模型被公式化为...原创 2020-04-08 18:41:16 · 1154 阅读 · 0 评论 -
FastSpeech理解分析和代码模型展示
文章目录FastSpeech:Fast, Robust and Controllable Text to SpeechFFT BlockLength RegulatorDuration PredictorDURIAN(Tencent AI Lab)FastSpeech:Fast, Robust and Controllable Text to SpeechFeed-Forward模块在Pho...原创 2020-02-07 15:38:08 · 2915 阅读 · 1 评论