语音
丨Modred丨
这个作者很懒,什么都没留下…
展开
-
Parallel WaveNet中文翻译
摘要最近开发的WaveNet结构是现实语音合成中最新的技术,一直被认为是更接近于自然声音。然而,因为wavenet依赖于依次生成音频中的每一个样本点,那么就不适合现在这种强大的并行计算机,因此,不适用与在生产环境部署。本文介绍了概率密度蒸馏法,可以从训练好的wavenet上训练一个新的并行前馈网络,并且在质量上没有显著差异。这样的系统可以实现20倍实时的高保真语音合成,已经在谷歌助手中使用,并...翻译 2018-08-24 18:11:58 · 3890 阅读 · 0 评论 -
Neural Networks的regularization技巧:谈谈网络的泛化能力与noise、Inductive Bias的关系
传送门 https://blog.csdn.net/Trasper1/article/details/82260278一切要从overfitting(简称OF)和网络的generalization capability(简称GC)能力说起。overfitting是因为网络的繁华能力不足。从有限的训练集期待学到具有无限表达能力的网络,本来就是伪命题,“infinite use by fi...转载 2019-01-17 18:38:04 · 226 阅读 · 0 评论 -
Audio samples from "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synth
https://google.github.io/tacotron/publications/speaker_adaptation/Audio samples from "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis"Paper: arXivAuthors: Ye...转载 2018-12-07 19:49:51 · 366 阅读 · 0 评论 -
awesome-speech-recognition-speech-synthesis-papers
传送门https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papersautomatic speech recognition/speech synthesis paper roadmap, including HMM, DNN, RNN, CNN, Seq2Seq, AttentionIntrod...转载 2018-11-16 22:07:27 · 631 阅读 · 0 评论 -
梅尔频率倒谱系数(MFCC) 学习笔记
最近学习音乐自动标注的过程中,看到了有关使用MFCC提取音频特征的内容,特地在网上找到资料,学习了一下相关内容。此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注和批改时我自己加上的,以便今后查阅。 语音信号处理之(四)梅尔频率倒谱系数(MFCC)zouxy09@qq.comhttp:...转载 2018-10-25 16:18:38 · 300 阅读 · 0 评论 -
目前自然语音合成(TTS)进度一点见解
目前实验模型wavenet,parallel wavenet, tacotron, deep voice 3, clarinet1. 需要preemphasis来产生更好的音频来自社区国人tacotron2的commit2. 转换到mu-law域可以stabilize训练过程,加速converge, 但是好像对最优解生成的音频质量没什么影响,所以现在训练还是raw3. 最终co...原创 2018-10-25 15:43:53 · 4679 阅读 · 2 评论 -
多轮对话系统
主要包含的模块有:wake up、 ASR 、NLU、 DM 、NLG 、TTS关键技术:(1)wake up:匹配到唤醒词后进入工作状态。(2) ASR:语音转文本。先建立存储语音特征的语音参数模板,对于新输入的语音经过语音特征提取后与模板比较,输出匹配度最高的。有基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法。(3)NLU:文本转语义表示。有不需要训练数据的基于规...转载 2018-09-04 20:54:26 · 1333 阅读 · 0 评论 -
librosa audioread.NoBackendError
最近在做语音合成librosa合成出来的音频,读取时候报错audioread.NoBackendError代码debug进去发现with audioread.audio_open(os.path.realpath(path)) as input_file:这里行报错,再向下追溯# FFmpeg.from . import ffdectry: return f...原创 2018-08-21 20:04:09 · 8350 阅读 · 7 评论 -
什么叫共振峰?
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。元音和响辅音声谱包络曲线上的峰巅位置。共振峰的本义是指声腔的共鸣频率。在元音和响辅音的产生中,声源谱经过声腔的调制,原来谐波振幅不再随频率的升高而依次递减,而是有的加强,有的减弱,形成有起伏的新的包络曲线,曲线峰巅位置的频率值和声腔共鸣频率是一致的。就元音来说,头三个共振峰对其音色有...转载 2018-08-21 19:56:20 · 11786 阅读 · 0 评论 -
正在写pytorch cpp前端的同行博客
https://oldpan.me/别人说的深度学习圣经 https://www.jeremyjordan.me/ 找个时间一起填了转载 2019-02-15 18:08:54 · 192 阅读 · 1 评论