语音激活检测最早应用于电话传输和检测系统当中,用于通信信道的时间分配,提高传输线路的利用效率。激活检测属于语音处理系统的前端操作,在语音检测领域意义重大。
但是目前的语音激活检测,尤其是检测人声开始和结束的端点始终是属于技术难点,各家公司始终处于能判断,但是不敢保证判别准确性的阶段。
通常搭建机器人聊天系统主要包括以下三个方面:
- 语音转文字(ASR/STT)
- 语义内容(NLU/NLP)
- 文字转语音(TTS)
语音转文字主要包括如下几个方面:
- 麦克风降噪
- 声源定位
- 回声消除
- 唤醒词/语音激活检测
- 音频格式压缩
语音激活检测主要功能可以有:
- 自动打断
- 去掉语音中的静音成分
- 获取输入语音中有效语音
- 去除噪声,对语音进行增强
检测原理
WebRTC的VAD模型采用了高斯模型,这一模型应用极其广泛。
检测原理是根据人声的频谱范围,把输入的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~