"端点测试"(end-point detection,简称EPD)的目标是要决定音讯开始和结束的位置,所以又可以称为 Speech Detection 或是VAD(Voice Activity Detection)。端点侦测在音讯处理与识别中,扮演一个重要的角色。
常见的端点侦测方法与相关的特征参数,可以分为两大类:
1、时域(time domain)的方法:计算量比较小,因此比较容易移植到计算能力较差的微电脑平台。
1)、音量:只使用音量来进行端点侦测,是最简单的方法,但是会对气音造成误判。不同的音量计算方式也会造成端点侦测
结果的不同,至于是哪一种计算方式比较好,并无定论,需要靠大量的资料来测试得知。
2)、音量和过零率:以音量为主,过零率为辅,可以对气音进行较精密的检测。
2、频域(frequency domain)的方法:计算量较大,因此比较难移植到计算能力较差的微电脑平台。
1)、频谱的变异数:有声音的频谱变化比较规律,变异数较低,可作为判断端点的基准。
2)、频谱的entropy:我们也可以只用entropy达到类似以上的功能。
一、时域的方法
首先我们来介绍如何在时域进行音高追踪。
第一种方法,是直接使用音量来进行端点侦测的方法。这是一种最简单的方法,只要音量小于某个门槛值,我们就认定是静音或是杂 讯,至于这个门槛值如何决定,除了靠人的直觉外,比较客观的方法,还是靠大量的测试资料来决定最佳值。
下列这个范例使用音量来对sunday.wav进行端点测试。在此范例中,我们使用4种不同方法来计算音量门槛值,并将结果画出来以便观察。
二、频域的方法(略)
源地址:http://bingxinye1.blog.163.com/blog/static/16879709820118210053618/