kaldi
WePlayDirty
emmmmmmm
展开
-
语音识别学习记录 [kaldi的nnet1 nnet2 nnet3了解一下]
根据我的理解,nnet应该是kaldi中已经实现的神经网络,根据不同的参数可以定义不同的神经网络,而nnet1、nnet2、nnet3是实现的三个版本。对kaldi了解还不是很多,先看一下别人介绍的kaldi中的nnet. 下文中的概念有一部分还不太明白,等实践后再发文说明一下。下文是对nnet各个版本的介绍。概览type author CPU/GPU feature ...原创 2018-07-30 17:49:37 · 5711 阅读 · 0 评论 -
语音识别学习记录 [kaldi的chain model]
kaldi 中的'chain' models 简介chain model是DNN-HMM模型的一种,使用nnet3结构,与传统模型有很多不同点。可以将它看作声学模型的一个创新点。使神经网络的输出的帧率缩小三倍,明显的缩小了测试时的计算量,使实时解码更加容易 模型从一开始就用序列级目标函数(正确序列概率的对数)进行训练。MMI在GPU上的实现没有使用Lattices(词图),而是通过在解码...翻译 2018-07-30 20:46:06 · 6292 阅读 · 0 评论 -
语音识别学习记录 [GMM-HMM、DNN-HMM、MMI/BMMI/MPE/sMBR]
在看kaldi文档中对chain model的介绍时,其中反复提到了MMI、lattice free MMI、DNN-HMM这些关键词,之前一直都没搞懂MMI到底是什么东西,看了很多博客只能大概了解到应该是训练声学模型时的一个准则。而且前几天分别看了GMM和HMM,各自原理大概明白了,但是还不太清楚它们是怎么和语音识别联系起来的,今天特地看了几篇博客去了解了一下GMM、HMM具体是如何和语音识别联...原创 2018-07-31 21:32:21 · 5618 阅读 · 0 评论 -
语音识别学习记录 [kaldi中的openfst]
在Kaldi tutorial: Overview of the distribution中介绍了一个使用openfst的例子。先来介绍一下这个例子,再来说明FST(finite-state transducers,有限状态机)如何应用到语音识别中。首先有三个文件,text.fst、isyms.txt、osyms.txt。text.fst文件的内容为(请无视前面的行号):0 1 a ...原创 2018-08-10 11:48:34 · 5574 阅读 · 0 评论