自组织神经网络元音识别
一、声音数据采集
语音信号的采集工作通过是Cool Edit Pro V2.1软件实现。文件为.wav音频格式,采样频率选择44.1kHz,采样编码数为8,声道为单声道。
实验中语音样本分别取自6人,实验要求每人对a,e,i,o,u五个元音字母进行依次朗读,根据录入数据建立6组,一共30个孤立声音样本。
下图其中一段语音波形:
二、MFCC特征参数提取
基于Matlab的MFCC特征参数提取函数可以参考:
https://cn.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab?s_tid=srchtitle
对于MFCC通俗易懂点的理解可以参考:
更深入点的理解可以参考: