关于webrtc的VAD(voice activity dectctor)算法说明

                                   关于webrtc的VAD(voice activity dectctor)算法说明

        webrtc 的vad使用GMM(Gaussian Mixture Model)对语音和噪声建模,通过相应的概率来判断语音和噪声。这种算法

的优点是它是无监督的,不需要严格的训练。GMM的噪声和语音模型如下:

       p(xk|z,rk)={1/sqrt(2*pi*sita^2)} * exp{ - (xk-uz) ^2/(2 * sita ^2 )} 

       XK是选取的特征量,webrtcVAD中具体是指子带能量,rk是包括均值uz和方差sita的参数集合。z=0,代表噪声;z=1,代表语音。

webrtc中的vadC代码的详细步骤如下:

      1.设定模式 :

                 依据hangover、单独判决和全局判决门限将VAD检测模式分为以下4类

                 0-quality mode  

                 1- Low bitrate mode  

                 2-Aggressive mode 

                 3- Very aggressive mode

          

      2.webrtc的VAD只支持帧长10ms,20ms和30ms,为此事先要加以判断,不符合条件的返回-1。

 

      3.webrtc 的VAD核心计算只支持8KHz采样率,所以当输入信号采样率为32KHz  或者16KHz 时都要先下采样到8KHz 

 

       4.在8Khz采样率上分为两个步骤

 

              4.1 计算子带能量

                        子带分为80~250Hz,250~500Hz,500~1000Hz,1000~2000Hz,2000~3000Hz,3000~4000Hz

                需要分别计算上述子带的能量feature_vector。

 

              4.2 通过高斯混合模型分别计算语音和非语音的概率,使用假设检验的方法确定信号的类型。

                          首先通过高斯模型计算假设检验中的H0和H1(C代码是用h0_test和h1_test表示),通过门限判决vadflag;

                         然后更新概率计算所需要的语音均值(speech_means)、噪声的均值(noise_means)、语音方差(speech_stds)

                和噪声方差(noise_stds)。

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值