一、语音信号短时能量的作用
1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;
清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)
浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)
2、对声音段和无声段进行判定;
3、对声母和韵母分界;
4、连字的分界等。
二、怎么计算语音信号的短时能量
1、短时能量的定义
对于信号{x(n)},其短时能量的定义如下:
En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗和汉明窗等;短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。
矩形窗的公式:
汉明窗的公式:
2、语音信号短时能量的计算
两个问题:
(1)一帧能量
因为语音信号是随时间变化的,所以其能量也是随时间变化的,所以在计算数字化的语音信号的能量时,并不是计算整体的能量,而是按帧来计算每一帧的能量,参考网上文章一般是已256个采样点为一帧。
我计算了一下,256个采样点的时长大约是5-6ms,远比分帧加窗时的分帧时间还短(20~30ms)。但是,这里计算的是能量,帧与帧之间不会重叠,比如第一个256个采样点为第一帧,则接下来的256个采样点为第二帧,……最后剩下的可能小于256个采样点为最后一帧。分割得越小,计算的能量越准确。每一帧的能量是将每个采样点带入上述能量计算并求和得出。
(2)时间的计算
这里的时间涉及到化能量的波形图,因为256个采样点的能量和为一个能量值,所以计算时间的方式需要改变,具体修改方式如下:
time = np.arange(0, nframes) * (1.0 / framerate) #之前的时间
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256 # 修改后的时间
因为能量点数缩小了256倍,所以时间的长度也要随之缩小,可以用总的采样点数除以256得到对应的时间点,但是能量的时间也应该与原波形图的时间对应,所以要在后面乘上一个256才行,否则在同一个点上的时间是之前时间的1/256。
三、代码实现
我用中文数字0-9的语音来举例,大家可以自己录制一个wav语音文件进行尝试。
import wave
import numpy as np
from matplotlib