webrtc 之vad的理解

本文介绍了WebRTC语音活动检测(VAD)的基本原理,包括语音信号的采样、帧处理、频段能量计算以及噪声与语音的概率分布判断。重点讨论了权重更新的考虑因素,如最大似然估计、噪声均值的动态更新以及梯度上升在估计过程中的作用。然而,文中提出了一些未解问题,如权重更新的准则和噪声均值更新的依据。
摘要由CSDN通过智能技术生成

1、语音信号的采样率是8kHz,因此其最高频率必须限制在4kHz以下;

2、首先把语音信号划分为10ms一帧数据进行计算,帧与帧之间不重叠;

3、将一帧信号分解到六个频段:80~250,250~500,500~1000,1000~2000,2000~3000,3000~4000,

4、计算每个频率内的信号能量,取log10,我们称之为对数能量;

5、下面的话很重要,很重要,很重要:

在每个频段内,这个对数能量都是遵循一定的概率分布的,这里我们假定噪声为H0,语音H1(我个人理解应该是噪声+语音),

如果是噪声,那么服从的概率分布为:

p(x)=\pi_{00} p(x|\mu_{00},\sigma_{00}) + \pi_{01} p(x|\mu_{01},\sigma_{01})

如果是语音,那么服从的概率分布为:

p(x)=\pi_{10} p(x|\mu_{10},\sigma_{10}) + \pi_{11} p(x|\mu_{11},\sigma_{11})

假定噪声的概率是p(H0),信号的概率是p(H1),那么收到一个信号(还不确是噪声还是语音)那它服从以下概率分布:

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值