整理 知乎 https://www.zhihu.com/people/leonjin 回答,如侵权立删
音速扰动sp:将音频速度扩展为0.9,1.0,1,1
参考脚本utils/data/perturb_data_dir_speed_3way.sh
音量扰动vp:
参考脚本utils/data/perturb_data_dir_volume.sh
上面两个都是用sox实现
有加混响和加性噪声,参考脚本
steps/data/reverberate_data_dir.py
steps/data/augment_data_dir.py
http://www.openslr.org/resources/28/rirs_noises.zip
这个混响包含了real和simulated,用的比较多是simulated中的小房间,中房间,对应房间大小分别是1~10m和10~30m加性的:
http://www.openslr.org/resources/17/musan.tar.gz
这个加性包含人声babble,音乐背景声和真实噪声。这两个噪声库强烈推荐Mark上~另外就是用sox改改音速和音量,这些dither也可以纳入考虑
2019年新加的频谱augmentation,内嵌在xconfig中:
spec-augment-layer
该方法需要加大epoch才可能奏效