VAD算法
- 基于信噪比(snr)的vad
- 基于DNN的vad
- 基于能量Energy的vad
- 基于Decoder的Vad
- 混合DNN和Decoder的Vad
基于信噪比的VAD算法
首先假设初始时的人是没有说话的,计算12帧初始声音的平均能量作为baseline,这个能量相当于底噪。
若进入的一帧的rms大于这个baseline,认为有人声,否则认为无人声。
初始时,连续n秒无人声,认为用户没有说话;连续3帧有声音,认为开始说话;说话后,又连续n秒没有声音,认为用户停止说话。
这就是几个状态处理,用个简单的状态机即可,switch, case。
用一个窗户来计算有声和无声的帧。
如何计算音量的呢?先计算一帧的rms,再10log(S/N)
private float getRmsdB(float rms) {
if (mNoiseLevel < rms) {
mNoiseLevel = (0.999f * mNoiseLevel) + (0.001f * rms);
} else {
mNoiseLevel = (0.95f * mNoiseLevel) + (0.05f * rms);
}
if (((double) mNoiseLevel) <= 0.0d || ((double) (rms / mNoiseLevel)) <= 1.0E-6d) {
return -120.0f;
}
float originalDb