1、首先,提取特征点,通过简单的能量的方式来计算vad,这是很有效的方式,因为语音源就已经确保都是非常干净的语音。从测试的结果来看,准确率也还可以,但是并没有想象的那么高,而且很明显存在滞后以及尾音超前,所以就决定了vad 的效果不会很好。
2、在训练模型时,正因为vad 的效果不会太好,所以设计的训练单元也就不是很多,对于vad 的输出,特别是低信噪比的输出结果就很不理想,在训练过程,针对vad 的权重也设置的非常的低,这是非常合理的。
3、通过修改vad 以及权重,对整个训练的影响非常的大,比如修改提取特征点时,计算vad 的方法,使得vad 更准确,训练后效果失真更小,但是通过训练过程的曲线来看,vad 的输出结果就会更不准确,噪声残留增加。vad 不同的权重,导致降噪残留以及失真也是不一样的,在训练测试过程,有条件自己修改测试的情况下,可以自己测试效果。
4、总结来说,vad 影响效果,特别是,当修改vad 计算方式以及权重,使得训练过程vad 的准确率更高时,往往会影响影响使摩擦音的语音损伤加重。
欢迎大家加音频算法分享讨论群:153268894 (作者 zeark)。