WebRTC 语音激活检测(VAD)算法

语音激活检测最早应用于电话传输和检测系统当中,用于通信信道的时间分配,提高传输线路的利用效率。激活检测属于语音处理系统的前端操作,在语音检测领域意义重大。

但是目前的语音激活检测,尤其是检测人声开始和结束的端点始终是属于技术难点,各家公司始终处于能判断,但是不敢保证判别准确性的阶段。

常搭建机器人聊天系统主要包括以下三个方面:

  1. 语音转文字(ASR/STT)
  2. 语义内容(NLU/NLP)
  3. 文字转语音(TTS)

语音转文字主要包括如下几个方面:

  1. 麦克风降噪
  2. 声源定位
  3. 回声消除
  4. 唤醒词/语音激活检测
  5. 音频格式压缩

语音激活检测主要功能可以有:

  1. 自动打断
  2. 去掉语音中的静音成分
  3. 获取输入语音中有效语音
  4. 去除噪声,对语音进行增强

检测原理

WebRTC的VAD模型采用了高斯模型,这一模型应用极其广泛。

检测原理是根据人声的频谱范围,把输入的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值