VAD算法

VAD算法

  1. 基于信噪比(snr)的vad
  2. 基于DNN的vad
  3. 基于能量Energy的vad
  4. 基于Decoder的Vad
  5. 混合DNN和Decoder的Vad

基于信噪比的VAD算法

首先假设初始时的人是没有说话的,计算12帧初始声音的平均能量作为baseline,这个能量相当于底噪。

若进入的一帧的rms大于这个baseline,认为有人声,否则认为无人声。

初始时,连续n秒无人声,认为用户没有说话;连续3帧有声音,认为开始说话;说话后,又连续n秒没有声音,认为用户停止说话。

这就是几个状态处理,用个简单的状态机即可,switch, case。

用一个窗户来计算有声和无声的帧。

如何计算音量的呢?先计算一帧的rms,再10log(S/N)

private float getRmsdB(float rms) {
    if (mNoiseLevel < rms) {
        mNoiseLevel = (0.999f * mNoiseLevel) + (0.001f * rms);
    } else {
        mNoiseLevel = (0.95f * mNoiseLevel) + (0.05f * rms);
    }
    if (((double) mNoiseLevel) <= 0.0d || ((double) (rms / mNoiseLevel)) <= 1.0E-6d) {
        return -120.0f;
    }
    float originalDb = 10.0f * ((float) Math.log10((double) (rms / mNoiseLevel)));
    // Clamp db to [0, 60]
    return Math.min(Math.max(0.0f, originalDb), 60.0f);
}

private float rms(byte[] buffer, int offset, int length) {
    float sum = 0.0f;
    if (length == 0) {
        throw new IllegalArgumentException();
    }
    for (int i = offset; i < offset + length; i += 2) {
        short sample = (short) 0;
        for (int j = 0; j < 2; j++) {
            sample = (short) (((buffer[i + j] & 255) << (j * 8)) | sample);
        }
        sum += (float) (sample * sample);
    }
    return (float) Math.sqrt((double) (sum / ((float) (length / 2))));
}

基于DNN的vad算法

需要进一步理解

窗口平滑

需要去做一个信号处理,即窗口平滑,才能使用到工程里面去。这种又叫Endpointer检测。
比如一个窗口有90%的信号都是silence,则认为silence开始。因为语音信号相对比较平滑,所以可以采用这种方式过滤一些坏点。

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值