语音数据的特征
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。
![image.png](http://upload-images.jianshu.io/upload_images/4685306-e01dc8f7d12701ef.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
image.png
![image.png](http://upload-images.jianshu.io/upload_images/4685306-f80a686a38681d05.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
image.png
语音识别系统本质上属于模式识别系统的范畴,都包含有特征提取和模板识别.
机器在识别匹配过程中,将输入语音信号的特征与模板库中的特征参数进行对比,根据所选建模方式,找出与之最为相近的模板参数,最终得到识别结果。优化的结果与特征的选择、声学模型的好坏、模板的准确性都有直接的关系。
![image.png](http://upload-images.jianshu.io/upload_images/4685306-9b1acc3ee26034fe.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
image.png
Sphinx语音识别开源工具
Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。项目网址:
https://cmusphinx.github.io/
Sphinx家族全家福: