基于语音信息的MFCC_dtw算法的语音特征分类系统
在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离(速度)大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特

本文介绍了基于语音信息的MFCC_DTW算法在语音特征分类系统中的应用。MFCC利用人耳听觉特性提取语音特征,具有良好的鲁棒性和识别性能。通过训练得到MFCC数据,结合端点检测进行分类识别,实现语音信号的预处理和分析。DTW算法在比较不同长度语音信号时起关键作用,提高了识别准确性。
订阅专栏 解锁全文
919

被折叠的 条评论
为什么被折叠?



