sphinx4最大的优点就是跨平台和灵活,它应用到了很多优秀的设计思想,如注解,设计模式等。下面总结一下它的特点:
1、高度可配置的前端点处理
2、支持孤立词,n-gram,context free语法
3、支持任意unit context sizes来提高识别率
4、允许使用新的搜索和裁剪算法
sphinx4的架构图:
从大的范围来说,可以分为3个部分:前端点,×××和基础知识。大致的识别流程如下:
1、首先从应用程序获取语音数据Audio传入前端点Front End进行特征提取
2、将提取出的特征值传入×××Decoder
3、×××Decoder综合语音的特征值和Konwledge Base中的语言模型,发音词典等信息,进行搜索对应的文本
4、最后将搜索到的最佳的文本返回给应用程序。
以上就是语音识别的大致流程,当然每一个步骤里面还可以划分为很多小的步骤。今天的主要目的是让大家对语音识别的过程有一个大致的了解,后面将详细介绍其中的每一个步骤。
转载于:https://blog.51cto.com/ikinglai/1246935