第三章---《实时语音处理实践指南》语音端点检测笔记

最新推荐文章于 2024-01-24 11:58:01 发布

Evan_love

最新推荐文章于 2024-01-24 11:58:01 发布

阅读量692

点赞数

分类专栏：语音读书笔记文章标签：机器学习深度学习人工智能语音识别算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Evan_love/article/details/118713019

版权

语音同时被 2 个专栏收录

9 篇文章 23 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

一、简要描述

语音端点检测（VAD）用于判断给定的音频数据是否存在语音，其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率，VAD方法通常包括特征提取和语音、非语音判决两部分，当前使用的语音特征主要有时域和频域两种，时域特征包括能量波动、过零率、最大能量和最小能量等，频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类：能量、频域、倒谱、谱差、谐波和长时信息，基于能量的特征计算简单，如能量过零率，基于谱在低SNR可以获得较好的效果，当SNR为0dB时，基于语音谐波和长时语音特征判决方法的鲁棒性更强。
远场情境下，由于传播路径较远，反射、散射、吸收、衰减的影响变强，这导致语音的SNR和SDR（源信号失真比(Source to Distortion Ratio, SDR)表示信号整体的失真情况）比近场差很多，如果此时仅用基于统计模型的检测方法并不能得到很好的判决结果，则有两种思路。（1）先提高SNR，再进行VAD检测，另一种是直接对低SNR的带噪语音进行检测，如一些基于深度学习的方法在训练语料中加入噪声，这种方法在数据集充分的情况下，其准确性可以超过基于统计模型的方法。

二、特征提取

1、好的特征应具备的性质

区分能力：含早语音和金汉噪声音频的分离度应尽量大。理论上，好的特征能够让语音特征和噪声特征分布没有交集。
噪声鲁棒性：背景噪声会造成语音失真，这会影响提取的特征区分能力。
2、基于能量的特征
信号的能量强度是基于能量的VAD检测方法的主要依据，在满足语音能量大于背景噪声能量的假设下，当能量大于某一门限时，则可以认为有语音存在，当噪声能量达到和语音能量一样大时，能量特征无法区分是语音还是纯噪声。
3、短时能量过零率
采集到的语音信号在数字域上有正负之分，从坐标轴上看，有些在正半轴，有些在负半轴，过零率等于一段时间内穿过横轴的次数与总采样点数的比值，它反映了信号变化的快慢，其虽然是时域特征，但变化快慢在某种程度上反映了频域的信息。过零率对低频噪声敏感，实际使用可以过滤掉低频部分。
4、其它特征
频域特征、倒谱特征、基于谐波的特征、长时特征。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。