部门老大叫用一下HTKBook,把它的训练与识别整个过程都走一遍,弄清楚,然后借鉴过来用于咱们的手写识别系统中。慢慢的翻译一下前三章。
第一章 HTK 基础
HTK是一组用来构建隐马尔科夫模型(HMM)的工具集。HMM可对任意时序信号建模,HTK的核心代码也具有非常好的通用性。不过,HTK的设计目的还是用于构建基于HMM的语音处理工具,尤其是语音识别工具。因此,在HTK中绝大部分工具都是为语音处理服务的。如上图所示,HTK包括两个主要的处理阶段:首先,使用HTK训练工具(Training Tools)建立一系列隐马模型的参数(训练数据是一系列语音数据(Speech Data)及关联的转换标签(Transcription));然后,使用HTK识别工具(Recogniser)对未知的语音输入(unknown speech)进行转换(Transcription)(即将语音数据识别成文本串)。
本书主要描述上诉两个过程的工作机制。但是,在开始深入讨论前我们需要理解HMM的基本原理。同时,简单了解一下htk工具集以及他们如何用于训练和识别,对后文的理解大有裨益。
在第一章中,我们将介绍HMM的基本思想以及在语音识别中的应用方法。第二章将简单介绍HTK工具集,并对比较了当前版本(3.4.1)同旧版的差异。第三章将介绍如何使用HTK工具集来构建一个基于HMM的简单语音识别系统,该系统可以识别小词汇量的连续语音短句。
本书的第二部分将对HTK及HMM进行非常详细的讨论。本书的最后部分详细给出了HTK工具的使用手册(包括每个工具的简介、参数设置以及各种出错信息的列表)。第二部分同第最后部分可以穿插阅读以加深理解。
最后,需要强调一下,本书的目的在于描述HTK工具集的基本原理及使用,而没有提供如何在开发环境中引用HTK工具。有兴趣的读者可以自行研究。