WebRTC 语音激活检测(VAD)算法

最新推荐文章于 2025-04-01 09:41:49 发布

u013250861

最新推荐文章于 2025-04-01 09:41:49 发布

阅读量445

点赞数

分类专栏： Audio 文章标签： webrtc 算法语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/144568468

版权

Audio 专栏收录该内容

60 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

语音激活检测最早应用于电话传输和检测系统当中，用于通信信道的时间分配，提高传输线路的利用效率。激活检测属于语音处理系统的前端操作，在语音检测领域意义重大。

但是目前的语音激活检测，尤其是检测人声开始和结束的端点始终是属于技术难点，各家公司始终处于能判断，但是不敢保证判别准确性的阶段。

通常搭建机器人聊天系统主要包括以下三个方面:

语音转文字(ASR/STT)
语义内容(NLU/NLP)
文字转语音(TTS)

语音转文字主要包括如下几个方面：

麦克风降噪
声源定位
回声消除
唤醒词/语音激活检测
音频格式压缩

语音激活检测主要功能可以有：

自动打断
去掉语音中的静音成分
获取输入语音中有效语音
去除噪声，对语音进行增强

检测原理

WebRTC的VAD模型采用了高斯模型，这一模型应用极其广泛。

检测原理是根据人声的频谱范围，把输入的频谱分成六个子带（80Hz~250Hz，250Hz~500Hz，500Hz~1K，1K~2K，2K~3K，3K~

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。