语音识别
HxShine
这个作者很懒,什么都没留下…
展开
-
1.简谈语音识别中的WFTS
用WFST来表征ASR中的模型(HCLG),可以更方便的对这些模型进行融合和优化,于是可以作为一个简单而灵活的ASR的解码器(simple and flexible ASR decoder design)。 利用WFTS,我们可以吧ctc label,lexicon(字典),language models(语言模型)等模型结合起来,生成一个简单的search graph用于解码。 WFTS主要由原创 2016-11-17 13:47:07 · 4842 阅读 · 0 评论 -
2 Connectionist Temporal Classification在语音识别中的运用(未完待续)
一 摘要RNN运用到序列的学习中很有用,但是还是需要预处理数据,即例如处理语音数据,之前每一帧的输入需要对应一个label,本文直接利用RNN处理未预处理的数据,并在TIMIT语料库中进行实验,相对HMM和HMM-RNN取得明显的优势。二 CTC详细介绍1之前的方式之前手写数字识别,语音识别,姿态识别都需要对数据进行预处理,即分割成letters或者word。 如今hidden Markov Mo原创 2016-12-07 10:14:38 · 3665 阅读 · 1 评论 -
反卷积网络的棋盘格现象
https://distill.pub/2016/deconv-checkerboard/1 现象通过神经网络生成的图片,放大了看会有棋盘格的现象2 分析混叠现象造成的,反卷积时,到stride和ksize 不能整除时,就会有这种现象,二维图像的时候更显著。神经网络虽然能学习,可以抵消一部分现象,但是会造成这个模型不鲁棒。常见的有三种方法上采样,反卷积,nn插值,双线...原创 2018-09-09 15:35:32 · 3693 阅读 · 0 评论