1、语音信号的采样率是8kHz,因此其最高频率必须限制在4kHz以下;
2、首先把语音信号划分为10ms一帧数据进行计算,帧与帧之间不重叠;
3、将一帧信号分解到六个频段:80~250,250~500,500~1000,1000~2000,2000~3000,3000~4000,
4、计算每个频率内的信号能量,取log10,我们称之为对数能量;
5、下面的话很重要,很重要,很重要:
在每个频段内,这个对数能量都是遵循一定的概率分布的,这里我们假定噪声为H0,语音H1(我个人理解应该是噪声+语音),
如果是噪声,那么服从的概率分布为:
如果是语音,那么服从的概率分布为:
假定噪声的概率是