VAD算法
- 基于信噪比(snr)的vad
- 基于DNN的vad
- 基于能量Energy的vad
- 基于Decoder的Vad
- 混合DNN和Decoder的Vad
基于信噪比的VAD算法
首先假设初始时的人是没有说话的,计算12帧初始声音的平均能量作为baseline,这个能量相当于底噪。
若进入的一帧的rms大于这个baseline,认为有人声,否则认为无人声。
初始时,连续n秒无人声,认为用户没有说话;连续3帧有声音,认为开始说话;说话后,又连续n秒没有声音,认为用户停止说话。
这就是几个状态处理,用个简单的状态机即可,switch, case。
用一个窗户来计算有声和无声的帧。
如何计算音量的呢?先计算一帧的rms,再10log(S/N)
private float getRmsdB(float rms) {
if (mNoiseLevel < rms) {
mNoiseLevel = (0.999f * mNoiseLevel) + (0.001f * rms);
} else {
mNoiseLevel = (0.95f * mNoiseLevel) + (0.05f * rms);
}
if (((double) mNoiseLevel) <= 0.0d || ((double) (rms / mNoiseLevel)) <= 1.0E-6d) {
return -120.0f;
}
float originalDb = 10.0f * ((float) Math.log10((double) (rms / mNoiseLevel)));
// Clamp db to [0, 60]
return Math.min(Math.max(0.0f, originalDb), 60.0f);
}
private float rms(byte[] buffer, int offset, int length) {
float sum = 0.0f;
if (length == 0) {
throw new IllegalArgumentException();
}
for (int i = offset; i < offset + length; i += 2) {
short sample = (short) 0;
for (int j = 0; j < 2; j++) {
sample = (short) (((buffer[i + j] & 255) << (j * 8)) | sample);
}
sum += (float) (sample * sample);
}
return (float) Math.sqrt((double) (sum / ((float) (length / 2))));
}
基于DNN的vad算法
需要进一步理解
窗口平滑
需要去做一个信号处理,即窗口平滑,才能使用到工程里面去。这种又叫Endpointer检测。
比如一个窗口有90%的信号都是silence,则认为silence开始。因为语音信号相对比较平滑,所以可以采用这种方式过滤一些坏点。