VAD过程个人总结

最新推荐文章于 2024-04-26 09:50:09 发布

若曦爹

最新推荐文章于 2024-04-26 09:50:09 发布

阅读量2.4k

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gbz3300255/article/details/108973453

版权

本文总结了VAD（语音活动检测）的过程，包括特征提取、端点检测的概念及分类。特征提取涉及能量、频域、倒谱、谐波和长时信息。端点检测用于识别语音和非语音区域，常采用阈值法、分类器和模型法。在Webrtc中，混合高斯模型被用于VAD。

摘要由CSDN通过智能技术生成

-1.

赶鸭子上架，让弄音频的分割，现成的能用方法找了个WebRTC的VAD看看吧。才接触2天，做个记录，有错误望大神指摘。

0.总流程以及概念：

一个VAD系统通常包括两个部分，特征提取和语音/非语音判决（端点检测）；

噪声：背景音称之为噪声。有外界环境的噪声，也有设备本身的噪声。在实际使用中，如果出现长时间的静默，会使用户感到很不自然。因此接收端常常会在静音期间发送一些分组，从而生成使用户感觉舒服一些的背景噪声，即所谓的舒适噪声。

静音：连续若干帧能量值持续维持在低水平。理想情况下静音能量值为0，但实际无法做到，因为一般有背景音，而背景音有基础能量值。

端点：静音和有效语音信号变化临界点。在实际应用中，比如说电话通话时，用户没有讲话时，就没有语音分组的发送，从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态，也不发送语音分组。当检测到突发的活动声音时才生成语音信号，并加以传输。运用这种技术能够获得大于50%的带宽。同理，在实际测试过程中我们也需要考虑非连续性说话，比如口吃、犹豫、吞吞吐吐时，语言的识别准确性，避免断点检测环节处理出现异常或者不合理的情况。

1.特征提取：

常用的特征提取可以分为五类：基于能量的特征可硬件实现&

最低0.47元/天解锁文章

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
VAD过程个人总结

赶鸭子上架，让弄音频的分割，现成的能用方法找了个WebRTC的VAD看看吧。下面几篇文章是对VAD过程详解，基于混合高斯模型的。下面文章可以对照代码去看。我就看个大概就得了，也不想转行去做语音识别，哈哈。概括的：https://www.cnblogs.com/dylancao/p/7663755.html详细的：https://www.cnblogs.com/damizhou/p/11318668.html更详细的混合高斯模型更新权重过程：https://blog.csdn.ne
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。