用HTK来提取语音文件的mfcc特征

一 HTK简介
HTK(HMM Tools Kit)是一个剑桥大学开发的专门用于建立和处理HMM的实验工具包[1],主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等领域。HTK经过剑桥大学、Entropic公司及Microsoft公司的不断增强和改进,使其在语音识别领域处于世界领先水平,另外,HTK还是一套源代码开放的工具箱,其基于ANSI C的模块化设计方式可以方便地嵌入到用户系统中。
二 HTK的使用方法
HTK目录结构
htk是一个开源的软件,解压之后的目录如下:
在这里插入图片描述
此外,几个重要的文件说明如下:
env:编译的环境变量设置。
HLMLib:HMM语言模型库。
HLMTools:HMM语言模型工具。
HTKBook:开发帮助文档。
HTKLib:HTK的声学库文件。
HTKTools:HTK的声学开发工具。
对于声学部分来说,比较重要两个文件夹是后面的两个文件夹。
HTK原理
HTK软件的体系结构如下图所示:
在这里插入图片描述
整个HTK是使用HMM作为语音识别的核心,当HMM应用于孤立词语音识别时,它用不同的隐含状态来描述不同的语音发音,对于连续语音识别系统,多个孤立词HMM子模型按一定的语言模型组成的复合HMM模型序列来刻画连续的语音信号,在序列中每个模型直接对应于相关的发音,并且每一个模型都有进入和退出状态,这两个状态没有对应的观察矢量,只用于不同模型的连接。

上图中的 HTK Tool周边的一些库都是HTKLib,这些库是语音信号处理时必须的资源或者通用库文件,HTK Tool正是利用HTKLib文件夹中的库文件(如HMem,HSigP等库文件),链接生成一些可执行程序。如HSigP库完成信号的预加重,信号加窗,FFT等方面的计算。
HTK工具使用
HTK工具的使用主要分布在使用过程中的四个阶段:
1.数据准备;
2.模型训练;
3.模式识别/结果测试;
4.模型分析
如图所示:
在这里插入图片描述
每一个HTK命令行工具都在特定的阶段完成特定的任务。整个入口就是原始的声音文件和对声音文件的文本记录信息。
恩,后续再补。。。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值