WinHTK开发与使用一:软件设计

本文档介绍了WinHTK软件的设计思路,旨在解决HTK在Windows环境下安装不便、使用复杂等问题,特别适合语音识别初学者。软件分为四个主要部分:文件管理和文本编辑、HTK工具调用和调试、识别应用界面、语音文件录制。通过提供图形化界面和简化操作流程,使初学者能更轻松地入门语音识别技术。
摘要由CSDN通过智能技术生成

   WinHTK开发与使用一:软件设计

        接触语音识别的同行都会了解HTK,HTK工具包的功能很强大;但是对于习惯界面操作的很多人而言,它有一些先天不足。当然对于一开始就习惯类Unix等命令行界面开发者而言,这些都不是问题,所以本系列文章只针对习惯了可见即可及操作系统的,对于语音识别技术感兴趣的初学者。导致HTK不方便使用的原因主要以下几点:

(1) 不方便安装,随便上网上一搜,涉及HTK的基本都是问如何安装,包括本人也是琢磨了很长一段时间(本人一开始也只是对在Windows开发,故此出现类似问题);

(2) 使用麻烦,windows下可以在Cygwin软件环境下使用HTK的方法,好像看似方便了,因为可以利用windows下的工具进行一些数据处理和文本编辑,但又出现新问题,其中最主要的是,必须学会Perl脚本语言的编程,好像多学一样东西不是坏事,可问题是有些人的直接目标是语音,他们不想把过多的时间浪费在一些其它方面的学习上;

(3) 组织不方便,在unix下组织文件是一件很辛苦麻烦的事情,这也是HTK中很多关于路径搜索的处理的原因。

说白了,就一句,很多人就是一个初学者,如果连语音识别入门就很难,自然会阻碍大家对于语音识别技术的深入研究。基于以上原因,我在Windows环境下,对HTK进行再次开发,希望能够让更初入门语音识别的同行,解决最开始的障碍,后续的路还是要靠自己走的。

一、概述

    整个软件从功能上划分主要分为四部分:文件管理和文本编辑,HTK工具调用和调试,识别应用界面,语音文件录制。如图1所示。各部分设计内容和功能如下。

图1 WinHTK设计内容

(1) 文件管理和文本编辑。这部分的设计的目标是实现一个很好的文件管理系统,还有良好文本编辑环境。文件管理方式有很多种,在这里采用了最熟悉的树形文件管理方式,以项目的方式对语音识别中涉及的文件进行管理,同时实现了多种文件管理功能,比如添加删除文件夹,新建、复制、粘贴文件等等。在这里有一个重要的问题,工作路径的选择,常用方法是新建一个项目后,固定工作路径为项目所处的目录。本设计采用动态决定工作路径方式,这主要是由于HTK内在的路径处理方式所决定的,这样决定也是方便使用者选择适合自己的路径处理方式。除了文件管理,这部分的另一个功能就是,文本编辑。由于进行处理时,经常需要同时处理多个文件,因此设计了一个多文件编辑的文本编辑器。这部分设计是本软件的重点,也是难点。

(2) HTK工具调用和调试。这部分设计主要是实现HTK工具的调用。由于HTK工具多达十几个,因此要同时处理好工具的隐式调用和显示不是一件容易的事情。由于所有这些工具需要的处理是一致的,因此在本设计中对它们进行了统一管理并进行显示,将直接命令方式调用改成辅助式的命令行调用,免去了繁杂的命令行参数记忆。除了实现HTK调用,还应当能够实时观察HTK的运行结果,方便调试,以便决定下一步操作,对于这个问题,本设计也给出了很好的解答,具体在后面叙述。

(3) 识别应用界面。有时候,不仅仅需要进行理论研究,制作一些简单的识别应用也是有必要的。为此,根据HTK识别器的特点,本设计开发了一个用于实现识别应用的接口界面,既可以静态识别,即对语音文件识别,也可以动态识别,即实时录音识别。需要强调的是,这个识别界面可以显示汉语的识别结果,因此必不可少需要一个翻译文件。

(4) 语音文件录制。尽管实际中有很多录音软件,但是它们要么操作太复杂,要么就是不能胜任语音识别系统开发任务的实际需要。因此为解决这个问题,本设计附带开发用于语音文件录制的功能。该录音器的特点是,可以实现同时多个文件的录制,文件名的动态编排。录音器的难点在于波形的动态演示,本设计中对这个问题处理不太利索。</

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值