在用VAD算法确定静音和语音数据的开始和起止点之前,需要对语音数据进行处理,然后再计算语音数据的开始和起止点,这个过程称为数据的预处理,有些VAD算法是基于短时能量和过零率实现的,并不进行预处理操作,但实验表明,对数据进行预处理之后的效果要比不进行预处理的效果好。这里,对数据进行去除直流和加窗两个预处理。
一,去除直流
至少有这几个理由,要求我们去除直流。
- 直流,是频域的慢变成分,一般都是因为信号采集过程中仪器所致。
- 如果需要进行频谱分析,那么因为直流的频谱泄漏,会严重影响低频谱的分析。
- 直流一般不随时间变化,不反应信号的趋性。
去除直接代码如下:
float new_last_data ,last_data ; // 上次计算的去除直流之后和之前的值。
float *remove_dc(short *data,int frame_size){
float in0 =0.0 ,of0 = 0.0 ;
float *tf = new float[frame_size];
for (int i=0; i < frame_size; i++){
tf[i] = in0 = (float)(data[i]);
tf[i] = in0 - last_dat