TTS学习笔记
文章平均质量分 62
TTS
cxxx17
为什么可乐一定要加冰
展开
-
【S2ST】TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encodin
传统的方法需要parallel的语音训练,这个工作中引入了,不需要parallel的语言数据。为了摆脱对平行语料的依赖,应用了与语言无关的句子级别的语义信息。尽管训练只用了单语言数据,推理的时候可以产生target language的语音。同样的也在多语言speech-to-speech场景下做了实验,超过了之前的方法。原创 2024-05-11 21:10:52 · 590 阅读 · 0 评论 -
【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture原创 2023-02-20 23:42:04 · 847 阅读 · 1 评论 -
MOS评分标准
mos tts原创 2023-01-15 23:02:09 · 1044 阅读 · 0 评论 -
【AM】Non-Attentive Tacotron
Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling本文提出了Non-Attentive Tacotron(NAT),基于Tacotron2但是把Decoder与Encoder之间的Attention机制替换成了显式的时长预测。NAT可以用时长标注训练,也可以使用一个细粒度的VAE以无监督或半监督的形式训练。当使用时长标注可以获得时,NAT自原创 2022-04-05 22:57:14 · 2851 阅读 · 1 评论 -
【Vocoder】HifiGAN
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis官方code:hifigan基于GAN的声码器提升了合成效率降低了memory,但是合成的音质还没有做到像自回归的声码器和基于glow的声码器那么好。本文提出了一种高效率高保真的声码器,由于语音音频由具有不同周期的正弦信号组成,本文证明了对音频的周期性模式进行建模对于提高样本质量至关重要。在效率方面,在Tesla V100 G原创 2022-04-03 16:07:45 · 5993 阅读 · 0 评论 -
【分词】Long Short-Term Memory Neural Networks for Chinese Word Segmentation
1 Introduction比较古早的文章了,2015年的ACL,用LSTM做分词的开山之作?分词是中文自然语言处理的基础(在BERT出现之前),当下最流行的分词方法即把分词当做一个序列标注任务。用有监督的方法去训练模型,常用的有最大熵(ME)和条件随机场(CRF)。但是这些方法,特征需要经过精心的设计,很容易过拟合到训练语料。最近神经网络的兴起,降低了分词任务中特征工程的工作量。但目前的方法,用到的是一定窗长的上下文,这在一些需要很长上下文的场景下,会使模型的效果受限。比如:冬天 (winter),能原创 2021-11-16 00:08:32 · 967 阅读 · 0 评论 -
语音合成公开数据集链接
英文:LJSpeech: ljspeechVCTK:vctkLibriTTS: libritts中文:标贝中文女生开源数据集:baker原创 2021-10-21 20:49:23 · 2300 阅读 · 0 评论 -
批量wav转raw pcm
find *.wav -exec ffmpeg -i {} -f s16be -ar 16000 -acodec pcm_s16be {}.pcm \;原创 2021-05-06 18:21:34 · 485 阅读 · 0 评论 -
【debug】LPCNet:.libs/lt-lpcnet_demo: error while loading shared libraries
应用自己的模型编译后的lpcnet_demo命令./lpcnet_demo -synthesis step-20-eval.lpc step-20-eval.pcm时报错:.libs/lt-lpcnet_demo: error while loading shared libraries: liblpcnet.so.0: cannot open shared object file: No such file or directory.删掉与lpcnet_demo同目录下的.libs文件夹即可。原创 2021-04-08 11:09:53 · 104 阅读 · 0 评论 -
【debug】waveglow踩坑
waveglow踩坑原创 2021-03-09 14:37:34 · 552 阅读 · 0 评论 -
【AM】ALIGNTTS: EFFICIENT FEED-FORWARD TEXT-TO-SPEECH SYSTEM WITHOUT EXPLICIT ALIGNMENT
ALIGNTTS: EFFICIENT FEED-FORWARD TEXT-TO-SPEECH SYSTEM WITHOUT EXPLICIT ALIGNMENT原创 2021-01-10 14:31:42 · 335 阅读 · 0 评论 -
【AM】NON-ATTENTIVE TACOTRON
本文提出了一种不用attention机制的tacotron,采用duration预测模块替代了attention,完成语音和文本之间的对齐,提升模型的鲁棒性。原创 2020-12-22 00:26:27 · 409 阅读 · 0 评论 -
【多音字消歧】A Mask-based Model for Mandarin Chinese Polyphone Disambiguation
A Mask-based Model for Mandarin Chinese Polyphone Disambiguation原创 2020-12-20 23:45:04 · 417 阅读 · 0 评论 -
【多音字消歧】Distant Supervision for Polyphone Disambiguation in Mandarin Chinese
来源:Interspeech2020单位:中科大,快手基本思路:使用强制对齐扩充多音字消歧数据,同时引入基于phoneme的语言模型(由扩充的数据的拼音序列训练得到),在训练时进行浅融合(shallow fusion)。网络结构如图,核心部分有三个:1、Distantly supervised data generation module应用语音识别中的强制对齐,给定语音的字符集的文本及音频,得到对齐的拼音序列。2、Character-phoneme transformation module原创 2020-12-20 21:52:33 · 433 阅读 · 0 评论 -
【AM】MultiSpeech: Multi-Speaker Text to Speech with Transformer
来源:interspeech2020原创 2020-11-19 18:33:06 · 509 阅读 · 1 评论 -
【AM】Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search原创 2020-12-03 00:57:25 · 2737 阅读 · 1 评论 -
WORD2VEC WITH TENSORFLOW
WORD2VEC WITH TENSORFLOW 2.0 – A SIMPLE CBOW IMPLEMENTATIONlink转载 2020-09-14 14:45:25 · 73 阅读 · 0 评论 -
【韵律预测】基于BILSTM-CRF的韵律预测
基于BILSTM-CRF的韵律预测摘要论文题目:BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in A Text-to-Speech Front-End来源:interspeech2018模型结构:word embedding+bilstm+CRF摘要本文提出了一个与语言无关的韵律预测模型(BILSTM-CRF)。主要包括三个组分:word embedding+bi原创 2020-09-10 21:03:34 · 1750 阅读 · 0 评论 -
没有sudo权限安装CRF++
没有sudu权限如何安装CRF++link转载 2020-09-07 19:50:30 · 139 阅读 · 0 评论 -
【多音字消歧】A Bi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese
论文名称:A Bi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese时间:2016年ISCSLP单位:西工大,微软基本思路:依靠sentence中多音字的POS(Part-of-Sentence)和上下文的POS确定多音字的发音。POS标注使用工具NLPIR toolkit标出。依靠多音字的POS确定多音字的发音的例子:可以看出通过朝字所在的词的POS既可以区分出读音。需要依靠上下文的POS确定原创 2020-08-01 01:02:13 · 572 阅读 · 0 评论 -
【多音字消歧】g2pM
g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark Dataset时间:submitted to interspeech 2020单位:Kakao Brain(韩国)Open source dataset:数据集构建:从维基百科中爬下来的句子,去除了太长的(>50字)和太短的(<5字)。只保留了句子中只有一个多音字的句子,因此每个句原创 2020-08-01 00:57:05 · 1206 阅读 · 0 评论 -
【多音字消歧】Polyphone Disambiguation for Mandarin Chinese with Multi-level Embedding Features
论文名字:Polyphone Disambiguation for Mandarin Chinese Using Conditional Neural Network with Multi-level Embedding Features时间:Interspeech 2019单位:昆山杜克大学基本思路:多音字的读音可以通过上下文确定,文中想引入不同级别的上下文即word-level embedding和sentence-level embedding实现多音字消歧。表现最好的模型结构:一层Bi-LS原创 2020-08-01 00:54:45 · 586 阅读 · 0 评论 -
【多音字消歧】Disambiguation of Chinese Polyphones by Pre-trained BERT
Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT时间:Interspeech 2019单位:港中文基本思路:应用开源的BERT模型提取语义的embedding,然后通过神经网络分类器分类多音字的发音。表现的最好的模型结构:BRET应用768个单元的,12layer的模型(BERT-base),模型大小300M+,接两层原创 2020-08-01 00:53:10 · 316 阅读 · 0 评论 -
【多音字消歧】Pre-trained Text Representations for Improving Front-End Text Processing
Pre-trained Text Representations for Improving Front-End Text Processing in Mandarin Text-to-Speech Synthesis时间:Interspeech 2019单位:腾讯基本思路:应用BERT和NMT这种能够提取提取语义信息的结构,进行信息提取后,再进行多音字和韵律的预测。表现的最好的模型结构:BERT-Base(12层,每层768units),NMT encoder模型(6层,每层512units),B原创 2020-08-01 00:51:53 · 616 阅读 · 0 评论 -
【多音字消歧】KNOWLEDGE DISTILLATION FROM BERT IN PRE-TRAINING AND FINE-TUNING FOR POLYPHONE DISAMBIGUATION
KNOWLEDGE DISTILLATION FROM BERT IN PRE-TRAINING AND FINE-TUNING FOR POLYPHONE DISAMBIGUATION时间:ASRU 2019单位:微软基本思路:通过BERT模型直接进行多音字消歧,但是由于BERT体量太大,应用了DISTILLATION训练了轻量级的BERT。在pre-train和fine-tune阶段都应用了DISTILLATION。模型:Teacher:BERT-base(12层768units),Studen原创 2020-08-01 00:49:22 · 569 阅读 · 0 评论 -
【AM】Tactron阅读笔记
TACOTRON TOWARDS END-TO-END SPEECH SYNTHESIS传统的TTS系统包括很多组分,如前端文本分析、声学模型和音频合成模块。Tacotron是一个端到端的TTS模型。总的模型结构:Encoder,基于Attention的decoder,后处理网络(即将mel谱转换为线性谱的网络,后面还接了一个将线性谱恢复成音频的Griffin-Li模块)。输入是character,输出是raw spectrogram。CBHG应用了K组1D卷积,卷积核的宽度分别为1-K,卷原创 2020-07-15 22:33:28 · 802 阅读 · 0 评论