降噪测试过程中,测试语音选择的思考

最近一直在测试降噪效果,也花了很多时间,借鉴同事以及资料,自己通过测试比较,有一些感悟,分享出来,希望音频算法的同行一起讨论。

降噪效果测试,正常情况我们会更多注重在噪声分类上面,往往忽略了语音音素的选择,这里我分享下,其实音素在降噪效果的比较中,我们应该要重视起来,以下我先来谈谈一些音素的区别以及降噪的影响:

1、几种音素的分类:

浊音:指发音时声带有震动的音素,比如au,o。

清音:与浊音相反,主要是通过通过气流来发音,声带不震动,比如:s,p。

元音:发音过程中由气流通过口腔而不受阻碍发出的音,分类有双元音,半元音。

辅音:与元音相对,气流在口腔或咽头受到阻碍而形成的音,分类有鼻音,鼻塞音,摩擦音等。

2、降噪主观测试序列音素的选择:

在降噪过程,如果条件合适,我们的测试训练需要包括所有的音素,并且需要保持3倍以上的量,当然,正常情况下,我们肯定很难做到这么多的测试序列一遍一遍的听,根据我的感受,我们至少需要包含以下几种:

中文测试:中文发音,语音的持续时间比较长,很多降噪算法对音素的损伤偏小,但是我们还是需要确保我们的测试序列中包含足够多的清音,比如:4,7,10,服等。

英文测试:相对于中文,英文每一个音素的发音延续时长就要短很多,清音出现的概率也更大,所以对英文测试时,我们就需要包含更多的音素,而且需要包含重读、轻读的单词,比如s 发音在单词前面,中间以及后面。还需要特别注意闭塞音:浊闭音:发音时长往往特别短10~20ms,能量往往还比较低,在做瞬时噪声处理时,把握不好就会损伤严重,清闭塞音:40~100ms,这个时间相对也比较短,而且频谱上往往就是一根竖线,在噪声处理时也很容易造成损伤。另外就是摩擦音,由于能量强度低,频谱平坦,即使一些对平稳噪声降噪的方法,也会很容易对这部分发音损伤。

snr: 语音测试训练,不同信噪比的带噪语音,对测试失真也很重要。

欢迎大家加音频算法分享讨论群:153268894 (作者 zeark)。

 

 

 

2022 / 01/ 30: 新版esptool 刷micropython固件指令不是 esptool.py cmd... 而是 esptool cmd... 即可;另外rshell 在 >= python 3.10 的时候出错解决方法可以查看:  已于2022年发布的: 第二章:修复rshell在python3.10出错 免费内容: https://edu.csdn.net/course/detail/29666 micropython语法和python3一样,编写起来非常方便。如果你快速入门单片机玩物联网而且像轻松实现各种功能,那绝力推荐使用micropython。方便易懂易学。 同时如果你懂C语音,也可以用C写好函数并编译进micropython固件里然后进入micropython调用(非必须)。 能通过WIFI联网(2.1章),也能通过sim卡使用2G/3G/4G/5G联网(4.5章)。 为实现语音控制,本教程会教大家使用tensorflow利用神经网络训练自己的语音模型并应用。为实现通过网页控制,本教程会教大家linux(debian10 nginx->uwsgi->python3->postgresql)网站前后台入门。为记录单片机传输过来的数据, 本教程会教大家入门数据库。  本教程会通过通俗易懂的比喻来讲解各种原理与思路,并手把手编写程序来实现各项功能。 本教程micropython版本是 2019年6月发布的1.11; 更多内容请看视频列表。  学习这门课程之前你需要至少掌握: 1: python3基础(变量, 循环, 函数, 常用库, 常用方法)。 本视频使用到的零件与淘宝上大致价格:     1: 超声波传感器(3)     2: MAX9814麦克风放大模块(8)     3: DHT22(15)     4: LED(0.1)     5: 8路5V低电平触发继电器(12)     6: HX1838红外接收模块(2)     7:红外发射管(0.1),HX1838红外接收板(1)     other: 电表, 排线, 面包板(2)*2,ESP32(28)  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值