kaldi解码及特征提取详解

目录 1. 注意事项 2. 流程图: 3. 具体流程指令: 1. 注意事项 首先要训练好模型,用到3个文件,分别是: final.mdl(训练模型得到的模型文件) final.mat(用来特征转换) HCLG.fst(fst文件) 此外要提供待解码音频文件或路径.scp文...

2018-12-19 09:11:49

阅读数 80

评论数 0

HTK解码代码分析(二)

HTK解码总体流程: 首先在HVite.C的main函数中调用相应库的函数。 HVite_main() { 解析HVite命令行; Initialise(); net = ExpandWordNet(&netHeap,wdNet,&...

2018-12-17 09:18:14

阅读数 88

评论数 0

HTK解码代码分析(一)

每个HMM的每个状态status都有一个TokenSet。这从结构体 _NetInst中可以看出。它有一个链表数据项TokenSet *state,就是保存每个状态status的TokenSet。每个TokenSet.like只保存对应状态的当前时刻观察值的最佳概率(所有状态到当前状态转移概率的最...

2018-12-17 09:17:26

阅读数 61

评论数 0

HTK特征提取(MFCC)代码分析(一)

HTK特征提取工具HCopy主要调用了HParm.c和HSigP.c这两个C文件里面的函数来实现了原始波形信号到MFCC的转换。特征提取的数据全部放在内存中处理,函数调用过程如下: main()->OpenSpeechFile->OpenParmFi...

2018-12-17 08:59:51

阅读数 60

评论数 0

WFST加权有限状态机

WFST在语音识别中的应用,要从Mohri的《Weighted Finite-State Transducers in Speech Recognition》这篇论文开始说起。首先看下面简单的WFST图,它是一个有向图,状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相...

2018-12-13 15:27:08

阅读数 96

评论数 0

语音识别算法原理文档整理(十)

Kaldi单音素脚本 从脚本run.sh来看,单音素训练 #monophone steps/train_mono.sh –boost-silence 1.25 –nj $n –cmd “$train_cmd”  data/mfcc/train data/lang exp/mono || exi...

2018-12-09 15:36:55

阅读数 37

评论数 0

kaldi笔记(三)train_mono.sh详解

train_mono.sh 是音素训练脚本,下面详细介绍各个功能: 1.首先是初始化GMM,使用的脚本是/kaldi-trunk/src/gmmbin/gmm-init-mono,输出是0.mdl和tree文件; 2.compile training graphs,使用的脚本是/kaldi-t...

2018-12-09 12:03:51

阅读数 161

评论数 0

kalid笔记(二)

local/prepare_data.sh waves_yesno #!/bin/bash mkdir -p data/local local=`pwd`/local scripts=`pwd`/scripts export PATH=$PATH:`pwd`/../../../tools/...

2018-12-08 22:20:16

阅读数 47

评论数 0

kaldi笔记(一)

#!/bin/bash train_cmd="utils/run.pl" decode_cmd="utils/run.pl" if [ ! -d waves_yesno ]; then wget http://www...

2018-12-08 22:17:55

阅读数 48

评论数 0

htk解码器网络

Htk解码器网络 之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。 参考资料: HTK book http://htk.eng.cam.ac.uk/downl...

2018-12-07 15:32:56

阅读数 55

评论数 0

kaldi nnet3 online2-wav-nnet3-latgen-faster decoder

int main(int argc, char *argv[]) {   try {     struct timeval start,stop,diff;     memset(&start,0,sizeof(struct timeval));     memset(...

2018-12-06 16:54:54

阅读数 243

评论数 0

系统学习机器学习之神经网络(十一) --TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", &qu...

2018-12-06 16:25:51

阅读数 68

评论数 0

kaldi中的hmm-topology介绍

kaldi中的hmm-topology介绍 kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。 kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一...

2018-12-06 15:10:04

阅读数 44

评论数 0

kali源代码简单说明

kaldi源代码简单说明 kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。 kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一...

2018-12-06 14:52:37

阅读数 72

评论数 0

kaldi中TransitionModel介绍

kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。 TransitionModel的定义和实现位于transition-model.h和transit...

2018-12-06 14:31:04

阅读数 61

评论数 0

语音识别中的lattice与confusion network

https://blog.csdn.net/yutianzuijin/article/details/77621511 https://blog.csdn.net/yutianzuijin/article/details/78756130  arpa2fst 原理详解    

2018-12-06 09:01:46

阅读数 54

评论数 0

CMUSphinx Acoustic Model Types

CMUSphinx supports different types of the acoustic models: continuous, semi-continuous and phonetically tied (PTM). The difference between PTM, semi...

2018-11-30 16:23:23

阅读数 29

评论数 0

语音识别的基础知识与CMUsphinx介绍

         语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。        基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中...

2018-11-30 14:01:33

阅读数 892

评论数 0

PocketSphinx语音识别系统的编译、安装和使用

PocketSphinx语音识别系统的编译、安装和使用         Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。Sphinx从开发之初就得到了CMU、DARPA等多个部门的资助和支持,后来逐步发展为开源项目。目前CMU Sphinx小组开发的下列译码器:...

2018-11-30 13:58:20

阅读数 61

评论数 0

语音识别——DNN在线解码 aishell为例

http://kaldi-asr.org/doc/index.html https://blog.csdn.net/chinatelecom08/article/details/81392535 https://blog.csdn.net/it_king1/article/details/80...

2018-11-15 11:36:20

阅读数 139

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭