语音识别
文章平均质量分 78
shzyiwai
这个作者很懒,什么都没留下…
展开
-
kali源代码简单说明
kaldi源代码简单说明kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一开始的时候,都是比较简单的,代码量也较小。我从git上下载过来kaldi源码后,通过git res原创 2017-09-22 10:34:10 · 3816 阅读 · 0 评论 -
kaldi中的hmm-topology介绍
kaldi中的hmm-topology介绍kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一个示例如下: 1 2 3 4 5 6 7 8 0 0 0 0.5 1 0.5 1原创 2018-01-22 20:23:49 · 2564 阅读 · 0 评论 -
kaldi中TransitionModel介绍
kaldi中TransitionModel介绍kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。TransitionModel的定义和实现位于transition-model.h和transition-model.cc中。在了解此对象之前,应先原创 2018-01-23 10:21:23 · 5498 阅读 · 0 评论 -
kaldi中hashlist阅读总结
kaldi中的解码算法里,需要记录很多的令牌(token)。每个令牌,都是一条路径的“头”,通过这个令牌回溯,就可以得到一条完整的路径。如果解码到最后一帧,从所有的令牌中,找到得分最优的那个的令牌,回溯得到路径,其路径上的输出,就是识别结果。(one-bese结果)在解码过程中,会产生很多的令牌。需要设计一种数据结构和相关算法,用来保存和更新令牌。其设计要求可以简单概括如下。 1、可以快原创 2017-12-29 13:28:07 · 2737 阅读 · 1 评论 -
kaldi中的Vector和Matrix
kaldi中的Vector和Matrix Vector和Matrix是kaldi中最常用的数据类型之一。语音数据,提取的特征,计算的结果,都保存在Vector或者Matrix之中。按照字面意思,Vector是“向量”,它只有一行数据,是一维的。Matrix是“矩阵”,它有行与列两个维度。kaldi中的Vector和Matrix,可以做许多数学上的操作。比如点加或点乘(每个元素都加上一原创 2018-01-30 09:55:28 · 4545 阅读 · 0 评论