对于CMU Sphinx-4进行相关简单的介绍,并对其中的一些功能和使用进行相关说明。
Introduction:
CMU Sphinx:
由卡内基梅隆大学制作的用于语音识别的开源工具箱。
CMU Sphinx-4:
Sphinx-4是完全用Java语言写的先进的语音识别系统。它是通过卡内基梅隆大学Sphinx组,Sun微系统实验室、三菱电器研究实验室、惠普等联合完成的,同时美国加州大学圣克鲁斯分校和麻省理工学院也对其有贡献。
Capabilities:
1.实时模式以及批处理模式下的语音识别,能够识别离散和连续的语音。
2.通用可插拔的前端结构。包括实现预加重、汉明窗、FFT、Mel频率滤波器、离散余弦变换、倒谱均值归一化、倒谱的特征值提取,增量倒谱,双增量倒谱特征。
3.通用可插拔的语言模型结构。包括可插拔语言模型支持单元组、二元组、三元组、Java Speech API语法格式以及ARPA-格式FST文法的ASCII和二进制版本。
4.通用的声学模型结构。包括可插拔的支持Sphinx-3声学模型。
5.通用的搜索管理。包括可插拔的支持广度优先和字修剪搜索。
6.一些对于处理后的识别结果,包括获得的可信度分数,生成的格子以及嵌入到JSGF标签中的ECMAScript
7.独立的工具。包括用于显示波形图和频谱图,从音频中产生特征。
Performance:
Sphinx-4是一个复杂的系统,能够执行许多不同类型的识别任务。因此,很难用Sphinx-4对于一些简单数字的识别精度和速度来衡量性能。取而代之,通常会做一些在Sphinx-4上的回归测试来决定如何在多种多样的任务下执行。这些任务和最后的结果如下(每个任务