sphinx4最大的优点就是跨平台和灵活,它应用到了很多优秀的设计思想,如注解,设计模式等。下面总结一下它的特点:


1、高度可配置的前端点处理

2、支持孤立词,n-gram,context free语法

3、支持任意unit context sizes来提高识别率

4、允许使用新的搜索和裁剪算法



sphinx4的架构图:

090836126.png


从大的范围来说,可以分为3个部分:前端点,×××和基础知识。大致的识别流程如下:


1、首先从应用程序获取语音数据Audio传入前端点Front End进行特征提取

2、将提取出的特征值传入×××Decoder

3、×××Decoder综合语音的特征值和Konwledge Base中的语言模型,发音词典等信息,进行搜索对应的文本

4、最后将搜索到的最佳的文本返回给应用程序。


以上就是语音识别的大致流程,当然每一个步骤里面还可以划分为很多小的步骤。今天的主要目的是让大家对语音识别的过程有一个大致的了解,后面将详细介绍其中的每一个步骤。