最近一直在测试降噪效果,也花了很多时间,借鉴同事以及资料,自己通过测试比较,有一些感悟,分享出来,希望音频算法的同行一起讨论。
降噪效果测试,正常情况我们会更多注重在噪声分类上面,往往忽略了语音音素的选择,这里我分享下,其实音素在降噪效果的比较中,我们应该要重视起来,以下我先来谈谈一些音素的区别以及降噪的影响:
1、几种音素的分类:
浊音:指发音时声带有震动的音素,比如au,o。
清音:与浊音相反,主要是通过通过气流来发音,声带不震动,比如:s,p。
元音:发音过程中由气流通过口腔而不受阻碍发出的音,分类有双元音,半元音。
辅音:与元音相对,气流在口腔或咽头受到阻碍而形成的音,分类有鼻音,鼻塞音,摩擦音等。
2、降噪主观测试序列音素的选择:
在降噪过程,如果条件合适,我们的测试训练需要包括所有的音素,并且需要保持3倍以上的量,当然,正常情况下,我们肯定很难做到这么多的测试序列一遍一遍的听,根据我的感受,我们至少需要包含以下几种:
中文测试:中文发音,语音的持续时间比较长,很多降噪算法对音素的损伤偏小,但是我们还是需要确保我们的测试序列中包含足够多的清音,比如:4,7,10,服等。
英文测试:相对于中文,英文每一个音素的发音延续时长就要短很多,清音出现的概率也更大,所以对英文测试时,我们就需要包含更多的音素,而且需要包含重读、轻读的单词,比如s 发音在单词前面,中间以及后面。还需要特别注意闭塞音:浊闭音:发音时长往往特别短10~20ms,能量往往还比较低,在做瞬时噪声处理时,把握不好就会损伤严重,清闭塞音:40~100ms,这个时间相对也比较短,而且频谱上往往就是一根竖线,在噪声处理时也很容易造成损伤。另外就是摩擦音,由于能量强度低,频谱平坦,即使一些对平稳噪声降噪的方法,也会很容易对这部分发音损伤。
snr: 语音测试训练,不同信噪比的带噪语音,对测试失真也很重要。
欢迎大家加音频算法分享讨论群:153268894 (作者 zeark)。