语音发生检测VAD

本文介绍了WebRTC中的语音活动检测(VAD)技术,重点在于其将信号分为6个频带并利用高斯模型判断噪声与语音的方法。内容包括信号的频率下采样处理,以及在不同信号频率下的应用。作者提供了自定义的语音信号参数,并分享了iOS平台的演示项目链接。
摘要由CSDN通过智能技术生成



webrtc 的各个音频处理都很值得大家学习,


不说个人感觉最牛的aec, 就这个vad就很好!


基本实现思想是 通过把信号分为 6个频带,对各个子频带进行 噪声和语音 的高斯模型特征判决!


对不同的信号频率均降频到8k hz,内部对 16、24、32、48、做了分频

如果需要做不同信号频率的检测,需要单独做分频到8k。


判决参数均可调整:

个人新增了一个具有明显辨识度的语音信号参数:

Custom as 4

// Mode 0, Quality.
static const int16_t kOverHangMax1Q[3] = { 8, 4, 3 };
static const int16_t kOverHangMax2Q[3] = { 14, 7, 5 };
static const int16_t kLocalThresholdQ[3] = { 24, 21, 24 };
static const int16_t kGlobalThresholdQ[3] = { 57, 48, 57 };
// Mode 1, Low bitrate.
static const int16_t kOverHangMax1LBR[3] = { 8, 4, 3 };
static const int16_t kOverHangMax2LBR[3] = { 14, 7, 5 };
static const int16_t kLocalThresholdLBR[3] = { 37, 32, 37 };
static const int16_t kGlobalThreshol
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值