语音合成
lujian1989
这个作者很懒,什么都没留下…
展开
-
ICASSP2020中语音合成部分论文阅读(未完待续)
ICASSP2020在5月份已经结束,拿到论文集后,慢慢花时间看一看同行的成果和进展,也算是汲取一点新鲜养分吧。简短介绍的同时也会附上自己粗浅鄙陋的想法。谬误良多,不吝指教。文章目录一. 综述二. 声学模型-稳定性1. 《Focusing on Attention: Prosody Transfer and Adaptative Optimization Strategy for Multi-Speaker End-to-End Speech Synthesis》一. 综述 &nbs.原创 2020-06-18 16:45:20 · 1900 阅读 · 1 评论 -
Tensorflow迁移学习加载预训练模型并修改变量shape和value的方法
迁移学习在深度学习中是经常被使用的方法,指的是在一个任务中预训练的模型被用于另一个任务的模型训练,以加快模型训练,减少资源消耗。然而网络搜索相关的话题,基本上只涉及加载预训练模型的特定变量值的方法,即不涉及预训练模型某个变量与当前任务网络对应变量shape改变的处理。在具体的语音合成多说话人模型迁移学习得到单说话人模型的任务中,就涉及到了迁移变量改变shape的情况,将解决方法如下列出。...原创 2020-02-16 21:02:56 · 3672 阅读 · 4 评论 -
Merlin:一个开源的神经网络语音合成系统
介绍Merlin语音合成工具包用于基于神经网络的语音合成。该系统将语言特征作为输入,采用神经网络来预测声学特征,然后将声学特征传递到声音合成机(vocoder)以产生语音波形。翻译 2017-02-20 10:30:16 · 24488 阅读 · 5 评论 -
Merlin doc 0.0.1
Merlin doc 0.0.1翻译 2017-02-20 10:39:11 · 2122 阅读 · 0 评论 -
【论文翻译】Tacotron:端到端语音合成
Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图, 然后将其提供给 Griffin-Lim 重建算法直接生成语音。 原论文链接: Tacotron: Towards End-to-End Speech Synthesis 最近开始研究端到端语音合成。相关的论文原本准备自己翻译,看到网上已经有翻译的比较好的版本,...转载 2018-08-04 16:16:17 · 5165 阅读 · 0 评论 -
【论文翻译】通过梅尔频谱预测来训练WaveNet的自然语音合成
Google Brain团队结合Tacotron和WaveNet等研究思路,增加了更多改进,最终实现了新的端到端语音合成系统Tacotron 2,达到了接近人声的效果。 原论文链接: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions 最近开始研究端到端语音合成。相关的论...转载 2018-08-06 18:15:41 · 3816 阅读 · 0 评论 -
【论文翻译】使用少量样本的神经语音克隆
这篇论文探讨了解决语音克隆问题的两种基本方法:说话人自适应(speaker adaptation)和说话人编码(speaker encoding)。适用于带有说话人嵌入的多说话人语音生成模型,不会降低音频质量。 原论文链接: Neural Voice Cloning with a Few Samples摘要 语音克隆是个性化语音接口的一项备受期待的能力。基于神经网络的语...翻译 2018-08-28 11:15:02 · 3397 阅读 · 0 评论 -
【论文翻译】WaveNet:一种原始音频的生成模型
Google Brain团队结合Tacotron和WaveNet等研究思路,增加了更多改进,最终实现了新的端到端语音合成系统Tacotron 2,达到了接近人声的效果。 原论文链接: WaveNet: A Generative Model for Raw Audio 最近开始研究端到端语音合成。相关的论文原本准备自己翻译,看到网上已经有翻译的比较好的版本, 故转载于...转载 2018-08-30 18:52:56 · 7372 阅读 · 1 评论 -
【论文翻译】Deep Voice 3:通过卷积序列学习来扩展语音合成
Deep Voice 3 引入了全卷积序列到序列式模型来进行语音合成,这种新架构在语音训练速度上有了数量级的提升,经过800 多个小时的语音数据学习,它可以合成 2400 多钟不同的语音结果。Deep Voice 3的意义在于探索语音合成模型训练的数据容量上限。 原论文链接: Deep Voice 3: Scaling Text-to-Speech with Convolution...翻译 2018-09-19 10:19:44 · 3807 阅读 · 2 评论