语音合成技术
天涯海阁未走远
这个作者很懒,什么都没留下…
展开
-
A TensorFlow implementation of DeepMind's WaveNet paper
本文是由https://github.com/ibab/tensorflow-wavenet翻译的而来。这是以tensorflow框架来实现WaveNet神经网络用于语音生成的完整案例。WaveNet神经网络架构能够直接生成原始语音波形,结果显示其在文语转换(TTS)和声音生成方面有着出色的效果。WaveNet给定所有先前的样本和可能的附加参数,网络对条件概率进行建模以生成音频波形中的下一个样本。...翻译 2018-05-09 20:31:27 · 800 阅读 · 0 评论 -
merlin的安装(暂时未成功)
结合了两个内容。1:官网手册https://mtts.readthedocs.io/zh_CN/latest/merlin.html2:博客:https://www.cnblogs.com/zhanxiage1994/p/7797969.html其中官网的操作没有提及执行cd merlin/tools./compile_tools.sh的时候需要登录htk的网站注册。所以造...原创 2019-01-10 20:39:46 · 1557 阅读 · 0 评论 -
dwt:动态时间规整
HMM学习笔记_1(从一个实例中学习DTW算法)转自:http://www.cnblogs.com/tornadomeet/archive/2012/03/23/2413363.html 以及理解部分参考:https://www.jianshu.com/p/4c905853711c DTW为(Dynamic Time Warping,动态时间归准)的简称。应用很广,主要是在模...转载 2018-12-11 16:53:01 · 758 阅读 · 0 评论 -
(翻译)Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks
写在前面:一个想法(如有不对的地方还请批评指正!)对于平行语料库,由于utterances的内容是一致的,所以语音转换只需要对声学模型(Acoustic Model)建模并训练;而对于非平行语料库,由于utterances的内容不一致,所以才需要语言学模型(Linguistic Model)和声学模型(Acoustic Model)一起建模。声学模型参数主要包括F0,delta, 频谱包络...翻译 2018-09-16 16:40:31 · 981 阅读 · 1 评论 -
HMM模型和Viterbi算法
转自:https://www.cnblogs.com/Denise-hzf/p/6612212.html一、隐含马尔可夫模型(Hidden Markov Model)1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效...转载 2018-09-12 18:46:35 · 141 阅读 · 0 评论 -
语音分析、合成系统:WORLD工具介绍
一、简介WORLD是一个基于C语言的开源语音合成系统,语音合成主要包括波形拼接和参数合成两种方法,WORLD是一种基于vocoder的参数合成方法,它相比于STRAIGHT的优势是减少了计算复杂度,并且可以应用于实时的语音合成。由于STRAIGHT不是开源的系统,并且在WORLD论文中已经对比了WORLD相比于STRAIGHT无论是在合成的音频质量上还是合成速度上都处于领先优势。WORLD...转载 2018-09-06 14:18:04 · 2296 阅读 · 0 评论 -
常用语音和文字数据库。用于语音识别、合成以及文字分类
记录一下常用的数据库。TIMIT 也忘记当时从哪下的了,网上也没看到好一点的链接。 TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来...转载 2018-07-22 09:07:01 · 7169 阅读 · 0 评论 -
python音频处理用到的操作
作者:桂。时间:2017-05-03 12:18:46链接:http://www.cnblogs.com/xingshansi/p/6799994.html 前言本文主要记录python下音频常用的操作,以.wav格式文件为例。其实网上有很多现成的音频工具包,如果仅仅调用,工具包是更方便的。更多pyton下的操作可以参考: 用python做科学计算1、批量读取.wav文件名:123456impo...转载 2018-05-11 15:40:01 · 4338 阅读 · 0 评论 -
基于WaveNet网络的英语语音识别
Speech-to-Text-WaveNet : End-to-end sentence level English speech recognition using DeepMind's WaveNet来源:https://github.com/buriburisuri/speech-to-text-wavenet#version这是一个完整的基于DeepMind公司WaveNet网络的英文语音...翻译 2018-05-10 22:30:43 · 3247 阅读 · 1 评论 -
TensorFlow练习15: 中文语音识别
语音识别的应用领域非常广泛,洋文名Speech Recognition。它所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。语音识别是前文《聊天机器人》必不可少的一个组件,本帖就使用TensorFlow做一个中文语音识别。使用的数据集THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开...转载 2018-05-10 21:25:55 · 8088 阅读 · 4 评论 -
THCHS-30:一个免费的中文语料库
摘要和第一部分是介绍目前语音识别开源语音库的现状,包括英文和中文的,由此引出来THCHS-30语料库。都是一些无关痛痒的介绍,所以不做翻译了。以下是正式翻译:2 THCHS-30的特点这部分我们介绍THCHS-30语音库。这个数据库是在2000-2001年记录的,第一个作者是Prof.Xiaoyan Zhu的一个研究生。这个语音库设计的目的是作为863数据库的补充,尽可能提高中文发音的涵盖率。这个...转载 2018-05-10 20:59:04 · 6316 阅读 · 0 评论 -
音频特征提取工具librosa
前言 本文主要记录librosa工具包的使用,librosa在音频、乐音信号的分析中经常用到,是python的一个工具包,这里主要记录它的相关内容以及安装步骤,用的是python3.5以及win8.1环境。一、MIR简介音乐信息检索(Music information retrieval,MIR)主要翻译自wikipedia.MIR是从音乐中检索信息的跨学科科学,该领域需要心理学、乐理学、信号处理...转载 2018-05-10 20:44:19 · 1916 阅读 · 0 评论