语音信号处理基础——简易VAD函数

最新推荐文章于 2025-03-20 15:34:37 发布

娄宇

最新推荐文章于 2025-03-20 15:34:37 发布

阅读量1.2w

点赞数 5

分类专栏：语音处理 DSP 文章标签：语音处理 DSP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/txbghost/article/details/51576073

版权

Voice Activity Detection (VAD)用于识别语音和非语音片段，常用于语音增强和识别。本文介绍了基于短时能量(STE)和过零率(ZCC)的简单VAD方法，通过设置阈值判断语音信号，并提供了Matlab实现代码，展示VAD在去除非语音片段的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Voice Activity Detection (VAD) 在语音信号处理中，例如语音增强，语音识别等领域有着非常重要的作用。它的作用是从一段语音（纯净或带噪）信号中标识出语音片段与非语音片段。

例如，在语音增强中，我们希望从带噪语音信号中剔除噪音，得到纯净的语音信号，第一步就是提取噪音信息。通常的思路是通过VAD函数得到非语音片段，而非语音片段可以认为是纯噪音片段。从而可以从纯噪音信号中提取出有用信息，例如进行傅里叶变换得到噪音频谱等，再进而做下一步处理。例如谱减法，维纳滤波。此处不作讨论。

VAD有很多种方法，此处介绍一种最简单直接的办法。通过short timeenergy (STE)和zero cross counter (ZCC) 来测定。（实际上精确度高的VAD会提取4种或更多的特征进行判断，这里只介绍两种特征的基本方法）。

l STE: 短时能量，即一帧语音信号的能量

l ZCC: 过零率，即一帧语音时域信号穿过0（时间轴）的次数。

理论基础是在信噪比（SNR）不是很低的情况下，语音片段的STE相对较大，而ZCC相对较小；而非语音片段的STE相对较小，但是ZCC相对较大。因为语音信号能量绝大部分包含在低频带内，而噪音信号通常能量较小且含有较高频段的信息。

故而可以通过测量语音信号的这两个特征并且与两个门限（阈值）进行对比，从而判断语音信号与非语音信号。

通常对语音信号分帧时取一帧20ms (因为一般会进行短时傅里叶变换，时域和频域的分辨率需要一个平衡&#x

最低0.47元/天解锁文章

博客等级

码龄13年

1
原创

5
点赞

35
收藏

5
粉丝

关注

私信

热门文章

语音信号处理基础——简易VAD函数 12647

分类专栏

语音处理 1篇
DSP 1篇

最新评论

语音信号处理基础——简易VAD函数
皮卡丘_cyy: 请问有没有原始音频啊
语音信号处理基础——简易VAD函数
robberM: 赞👍
语音信号处理基础——简易VAD函数
qq_22874679: 这个提出来的噪声和原始语音长度不一样。维纳滤波求噪声自相关的时候，是需要在噪声里补0么
语音信号处理基础——简易VAD函数
惟与: 赞 loop

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。