-1.
赶鸭子上架,让弄音频的分割,现成的能用方法找了个WebRTC的VAD看看吧。才接触2天,做个记录,有错误望大神指摘。
0.总流程以及概念:
一个VAD系统通常包括两个部分,特征提取和语音/非语音判决(端点检测);
噪声:背景音称之为噪声。有外界环境的噪声,也有设备本身的噪声。在实际使用中,如果出现长时间的静默,会使用户感到很不自然。因此接收端常常会在静音期间发送一些分组,从而生成使用户感觉舒服一些的背景噪声,即所谓的舒适噪声。
静音:连续若干帧能量值持续维持在低水平。理想情况下静音能量值为0,但实际无法做到,因为一般有背景音,而背景音有基础能量值。
端点:静音和有效语音信号变化临界点。在实际应用中,比如说电话通话时,用户没有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。当检测到突发的活动声音时才生成语音信号,并加以传输。运用这种技术能够获得大于50%的带宽。同理,在实际测试过程中我们也需要考虑非连续性说话,比如口吃、犹豫、吞吞吐吐时,语言的识别准确性,避免断点检测环节处理出现异常或者不合理的情况。
1.特征提取:
常用的特征提取可以分为五类:基于能量的特征可硬件实现&