第三章---《实时语音处理实践指南》语音端点检测笔记

一、 简要描述

 语音端点检测(VAD)用于判断给定的音频数据是否存在语音,其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率,VAD方法通常包括特征提取语音、非语音判决两部分,当前使用的语音特征主要有时域和频域两种,时域特征包括能量波动、过零率、最大能量和最小能量等,频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类:能量、频域、倒谱、谱差、谐波和长时信息,基于能量的特征计算简单,如能量过零率,基于谱在低SNR可以获得较好的效果,当SNR为0dB时,基于语音谐波和长时语音特征判决方法的鲁棒性更强。
远场情境下,由于传播路径较远,反射、散射、吸收、衰减的影响变强,这导致语音的SNR和SDR(源信号失真比(Source to Distortion Ratio, SDR)表示信号整体的失真情况)比近场差很多,如果此时仅用基于统计模型的检测方法并不能得到很好的判决结果,则有两种思路。(1)先提高SNR,再进行VAD检测,另一种是直接对低SNR的带噪语音进行检测,如一些基于深度学习的方法在训练语料中加入噪声,这种方法在数据集充分的情况下,其准确性可以超过基于统计模型的方法。

二、特征提取

1、好的特征应具备的性质

  • 区分能力:含早语音和金汉噪声音频的分离度应尽量大。理论上,好的特征能够让语音特征和噪声特征分布没有交集。
  • 噪声鲁棒性: 背景噪声会造成语音失真,这会影响提取的特征区分能力。
    2、基于能量的特征
    信号的能量强度是基于能量的VAD检测方法的主要依据,在满足语音能量大于背景噪声能量的假设下,当能量大于某一门限时,则可以认为有语音存在,当噪声能量达到和语音能量一样大时,能量特征无法区分是语音还是纯噪声。
    3、短时能量过零率
    采集到的语音信号在数字域上有正负之分,从坐标轴上看,有些在正半轴,有些在负半轴,过零率等于一段时间内穿过横轴的次数与总采样点数的比值,它反映了信号变化的快慢,其虽然是时域特征,但变化快慢在某种程度上反映了频域的信息。过零率对低频噪声敏感,实际使用可以过滤掉低频部分。
    4、其它特征
    频域特征、倒谱特征、基于谐波的特征、长时特征。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值