语音合成
文章平均质量分 80
GFward
这个作者很懒,什么都没留下…
展开
-
PnG BERT - 用于TTS的预训练BERT模型(变种)
文章目录模型结构实验及结果分析本文提出了一种BERT变种,PngBert是google在interspeech 2021提出的一种可以用做TTS encoder的预训练模型。该模型在BERT基础上,添加了字素信息和字素位置信息,在修改了mask方式,并用大数据量预训练模型,冻结底层参数之后,与TTS联合训练,作为TTS Encoder, 从而提升韵律和自然度。模型结构BERT等语言学信息添加到TTS训练过程是一个较早就开始使用的用于提升合成自然度或者韵律的方式。包括使用 word embeddi原创 2021-10-14 18:17:57 · 1153 阅读 · 0 评论 -
《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》
文章调研了多说话人TTS的建模方法,并且探究了不同类型的speaker embedding对合成系统的影响。作者通过实验认为,相比之下,LDE相对x-vector在zero-shot(unseen pseaker) TTS中的作用更优 寻找了一种利用speaker embedding相对较优 方案 LDE不仅有利于相似度,而且有利于自然度。 unseen < seen SV任务的表现似乎与TTS表现没有强烈的或者必然的联系1. 背景:对于多说话人或者说话人适应,目前学术...原创 2021-10-13 15:56:02 · 478 阅读 · 0 评论 -
Adaspeech
文章目录概述系统概述结果分析:概述本文是一片低资源合成的文章,主要关注两方面,一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果;一方面关注如何针对每个说话人占用更少的内存资源(模型参数)。针对上述问题,文章总结了目前的custom voice系统面临的挑战有两个:新的声音与训练集声音不一样保持音质的同事降低模型参数数量针对上述挑战,文章提出了两方面的解决方法:分别使用两个encoder建模句子级别和音素级别的声学参数,用于更好的建模不同的(多变的)(集原创 2021-04-27 16:12:07 · 424 阅读 · 0 评论 -
《Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement》
文章目录Q&A背景方法细节speaker embedding extractionnoise representation extractionBasic TTSdata set结果本文使用speaker embedding和noise embedding分别建模说话人信息和噪声信息,并将其作为条件输入到模型。先用干净多话者数据和加了噪声的数据预训练模型; 再用带噪声的低资源数据adaption; 最后只加入干净语音mask推理,合成干净的声音。与直接使用降噪数据finetune预训练模型(.原创 2021-04-20 18:33:15 · 499 阅读 · 0 评论 -
librosa.stft & librosa.core.stft
该函数是音频信号短时傅里叶变化的librosa实现,旧版本调用方式为librosa.core.stft, 目前新版本已经修改为librosa.stft文档地址 : https://librosa.org/doc/0.8.0/generated/librosa.stft.html函数头:librosa.stft(y, n_fft=2048, hop_length=None, win_length=None, window=‘hann’, center=True, dtype=None, pad_mode原创 2021-04-17 17:54:27 · 1622 阅读 · 0 评论 -
2021-03-31
文章目录概述系统概述结果分析:概述本文是一片低资源合成的文章,主要关注两方面,一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果;一方面关注如何针对每个说话人占用更少的内存资源(模型参数)。针对上述问题,文章总结了目前的custom voice系统面临的挑战有两个:新的声音与训练集声音不一样保持音质的同事降低模型参数数量针对上述挑战,文章提出了两方面的解决方法:分别使用两个encoder建模句子级别和音素级别的声学参数在decoder部分引入条件层正则化,新的数据来了原创 2021-03-31 10:23:43 · 182 阅读 · 0 评论 -
《Building Multilingual TTS using Cross-Lingual Voice Conversion》
使用从ASR模型生成PPG直接生成MCEP, LF0, BAP等特征,并用在Voice Conversion中,从而实现中日韩多语种多话者合成。尝试了三种方法,自然度MOS 3.28, 相似度MOS 2.77。文章认为,首先传统基于PPG的VC系统将声学特征和韵律特征分开,但是坐着认为这二者之间实际上并不是弱相关关系,而是强相关关系,因此,可以将二者集合起来,尤其是将不同语言的PPG也结合起来用于表征更强烈的韵律特征。其次,呼应上述观点,作者认为,传统VC系统提取F0的错误对最终效果影响很大,因此提出不.原创 2021-03-26 16:49:48 · 299 阅读 · 0 评论 -
On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model
On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model文章出自Microsoft STC India, INTERSPEECH 2020。本文在已有[^工作]原创 2021-02-20 10:38:12 · 295 阅读 · 0 评论 -
歌声合成,微软小冰:XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
文章目录歌声合成摘要:背景:结构模型结构损失函数实验数据结果Ref:歌声合成难点:映射困难。语音合成认为音素是独立的,但是歌声合成中,发音说旋律影响,需要更加平滑,发音不确定性增大数据量大。IPA虽然可以标注音标,但是歌声合成的发音收到音高影响、歌手音域影响等音素发音种类指数级增加摘要:xiaoicesing 是一个高质量歌声合成器( Singing voice synthesis (SVS) ),基于fastspeech+WORLD(modified), 使用频谱、F0, 时长。原创 2021-01-03 16:29:59 · 1517 阅读 · 0 评论 -
praat 字符识别错误 : the phonetic font is not available
praat 打开汉语标注文件是,提示音素格式不可识别。解决:首先根据 praat官网 提示,下载官方可执行程序。下载字符支持软件 CharisSIL-5.000.exe, DoulosSIL-5.000.exe原创 2020-08-24 09:25:11 · 1210 阅读 · 0 评论 -
ICASSP2020 : Aligntts: Efficient Feed-Forward Text-to-Speech System Without Explicit Alignment
文章目录Q&A贡献模型训练推理实验一句话概括:基于端到端模型合成慢,非自回归模型虽然快,但是对齐学的不好,因此,基于 Baum-Welch算法,提出了 alignTTTS, 实现了快速合成,提出了 align-loss,提高了准确度和自然度。Q&A这里的length regular与fast speech有什么不同?alignment loss是怎么使用的?length regular 是什么流程?target length是怎么预测出来的?mi原创 2020-08-07 16:51:33 · 721 阅读 · 0 评论 -
Cross-Lingual, Multi-Speaker Text-To-Speech Synthesis Using Neural Speaker Embedding
前置知识style token结论性知识端到端需要至少10小时的数据量。According to [1], it concludes that around 10 hours of speech-transcript pairs from one speaker are needed to get high quality by a neural end-to-end TTS model...原创 2020-02-08 15:50:49 · 1234 阅读 · 0 评论 -
griffin-lim算法及 vocoder声码器
G&L(griffin-lim)算法是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。griffin-lim是一种声码器,常用于语音合成,用于将语音合成系统生成的声学参数转换成语音波形,这种声码器不需要训练,不需要预知相位谱,而是通过帧与帧之间的关系估计相位信息,从未重建语音波形。声码器(vocoder)声码器是一种将声学参...原创 2020-01-14 11:46:24 · 7941 阅读 · 0 评论 -
LPCNET学习
可以参考:from 知乎:https://zhuanlan.zhihu.com/p/54952637referenceThe μ-law CODECPCM音频压缩A-Law算法,uLawa-law原理及算法实现几种常见音频编码格式的总结几种基本的pcm编码总结...原创 2020-01-13 18:51:15 · 723 阅读 · 0 评论 -
语音信号处理 0 ----- 写在前面
语音是人类社会传递信息最有效、最常用、最方便的信息交换方式。计算机是人类历史上具有创世纪意义的发明创造。几百年来,人类一直在探索和寻找是机器说话甚至与人类交流的方法。几十年来,科研工作者,工业界一直在孜孜不倦的追求让计算机听懂人类语言,并且与人类交流的的梦想。因此产生的语音相关课题不断涌现。语音识别、语义理解、对话生成、机器翻译、语音合成形成了人机对话的循环。因此而产生的十分必要的研究方向还包括 ...原创 2019-11-21 10:57:00 · 314 阅读 · 0 评论 -
open-jtalk 编译与使用
1. open-jtalk [open-jtalk](http://open-jtalk.sourceforge.net/ ) 是一个开源的日语合成系统,相当于日文版的festival。该系统包括的日语合成系统的前端处理和后端合成,使用C语言编写。2.编译:http://open-jtalk.sourceforge.net/ source code下载源码 解...原创 2019-10-11 21:23:50 · 1847 阅读 · 0 评论