kaldi
lbaihao
zephyr,data structure, algorithm, protocol,darknet,architecture
展开
-
kaldi资料
Kaldi官网 http://kaldi-asr.org/doc/index.html 包括一大堆原理和工具的使用说明,有什么问题请首先看这个。 Kaldi Lecture http://www.danielpovey.com/kaldi-lectures.html 相比于上一个会给一个更简略的原理、流程介绍。 Kaldi中文翻译1 如果感觉英语读起来比较头疼的话建议搜一下这个来看看,是对官网...原创 2018-10-19 16:12:39 · 719 阅读 · 0 评论 -
htk解码器网络
Htk解码器网络之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。参考资料:HTK book http://htk.eng.cam.ac.uk/download.shtml 解码器网络一、 解码器网络的概况网络分为两种:word网络...原创 2018-12-07 15:32:56 · 649 阅读 · 0 评论 -
kaldi笔记(三)train_mono.sh详解
train_mono.sh 是音素训练脚本,下面详细介绍各个功能:1.首先是初始化GMM,使用的脚本是/kaldi-trunk/src/gmmbin/gmm-init-mono,输出是0.mdl和tree文件;2.compile training graphs,使用的脚本是/kaldi-trunk/source/bin/compile-training-graphs,输入是tree,0.m...原创 2018-12-09 12:03:51 · 2976 阅读 · 0 评论 -
系统学习机器学习之神经网络(十一) --TDNN
近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。 普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅...转载 2018-12-06 16:25:51 · 1060 阅读 · 0 评论 -
WFST加权有限状态机
WFST在语音识别中的应用,要从Mohri的《Weighted Finite-State Transducers in Speech Recognition》这篇论文开始说起。首先看下面简单的WFST图,它是一个有向图,状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相同,当然在多数情况下它们是不相同的,在语音识别中,输入可能是发声的声韵母,输出是一个个汉字或词语。...转载 2018-12-13 15:27:08 · 2393 阅读 · 0 评论 -
kaldi中的hmm-topology介绍
kaldi中的hmm-topology介绍kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一个示例如下:<Topology><TopologyEntry><...转载 2018-12-06 15:10:04 · 928 阅读 · 1 评论 -
kali源代码简单说明
kaldi源代码简单说明kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一开始的时候,都是比较简单的,代码量也较小。我从git上下载过来kaldi源码后,通过git res...转载 2018-12-06 14:52:37 · 1787 阅读 · 0 评论 -
kaldi中TransitionModel介绍
kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。TransitionModel的定义和实现位于transition-model.h和transition-model.cc中。在了解此对象之前,应先阅读和理解hmm-topology相关的内容。在介...转载 2018-12-06 14:31:04 · 1231 阅读 · 0 评论 -
语音识别中的lattice与confusion network
https://blog.csdn.net/yutianzuijin/article/details/77621511https://blog.csdn.net/yutianzuijin/article/details/78756130 arpa2fst 原理详解转载 2018-12-06 09:01:46 · 646 阅读 · 0 评论 -
kalid笔记(二)
local/prepare_data.sh waves_yesno#!/bin/bashmkdir -p data/locallocal=`pwd`/localscripts=`pwd`/scriptsexport PATH=$PATH:`pwd`/../../../tools/irstlm/binecho "Preparing train and test data"t...原创 2018-12-08 22:20:16 · 1528 阅读 · 0 评论 -
kaldi笔记(一)
#!/bin/bashtrain_cmd="utils/run.pl"decode_cmd="utils/run.pl"if [ ! -d waves_yesno ]; then wget http://www.openslr.org/resources/1/waves_yesno.tar.gz || exit 1; # was: # wget http://sourcef...原创 2018-12-08 22:17:55 · 515 阅读 · 0 评论 -
语音识别——DNN在线解码 aishell为例
http://kaldi-asr.org/doc/index.htmlhttps://blog.csdn.net/chinatelecom08/article/details/81392535https://blog.csdn.net/it_king1/article/details/80109398原创 2018-11-15 11:36:20 · 894 阅读 · 0 评论 -
语音识别学习记录 [kaldi中的openfst]
在Kaldi tutorial: Overview of the distribution中介绍了一个使用openfst的例子。先来介绍一下这个例子,再来说明FST(finite-state transducers,有限状态机)如何应用到语音识别中。首先有三个文件,text.fst、isyms.txt、osyms.txt。text.fst文件的内容为(请无视前面的行号):0 1 a x...原创 2018-11-15 08:47:47 · 956 阅读 · 0 评论 -
kaldi解码及特征提取详解
目录1. 注意事项 2. 流程图: 3. 具体流程指令:1. 注意事项首先要训练好模型,用到3个文件,分别是: final.mdl(训练模型得到的模型文件) final.mat(用来特征转换) HCLG.fst(fst文件) 此外要提供待解码音频文件或路径.scp文件: wav.scp(音频路径.scp文件) 2. 流程图:st=>start: 开...转载 2018-12-19 09:11:49 · 1767 阅读 · 0 评论