【文献阅读】基于分别训练频谱特征和空间特征的多通道环境声音分离
前言
这是一篇关于声音分离和识别的文章,介绍了一种基于多通道的声音分离和声音识别一体化方法,文章中也提到了很多其他方法,并进行了对比,适合想要了解声音识别方面内容的同学,可以通过这篇文章中提到的参考文献找到一系列其他文章。
文章2021年3月被APPLIED INTELLIGENCE期刊接收,APPLIED INTELLIGENCE是人工智能领域3区SCI期刊。
论文阅读可能会存在理解不到位的地方,想要深入阅读的小伙伴可参考原文:https://link.springer.com/content/pdf/10.1007%2Fs10489-021-02314-5.pdf
主要贡献
文章提出使用一个模型同时进行声音分离和分类,将频谱和空间特征输入声源定位和声音分离模块,然后将分离出的每部分音频分别进行分类。
- 不用提前定义数据源,因为所有方向的声音是同步分离的;
- SSLS(声源定位和分离)模块和SSSC(声源分离和分类)模块是分离的,DOA(波达方向)和类别不存在过拟合问题;
- 将多种空间特征进行对比,发现sine和cosine IPD(interchannel phase difference, 声道间相位差)是最适合声源定位和分离的。
相关基于多通道方法的缺点
传统的瀑布式方法包含多个单独的信号处理技术模块,会导致每个模块的误差累积,因为每个模块单独优化,而没有考虑全局效果。
使用单通道麦克风的基于深度学习的端到端的方法可以同时进行声源分离(SSS)和分类,其效果优于瀑布式方法,但是在多声源导致的声音重叠问题上效果较差,因为单通道麦克风无法获取空间特征。
之后又提出了基于多通道的方法用于自动语音识别(ASR),这类方法可以同时进行声源定位(SSL)、声源分离(SSS)和ASR,除了频谱特征,还是用了IPD作为空间特征,改善多种声音叠加情况下的ASR,但是训练过程中没有使用DOA的loss函数,因此没有有效发挥空间特征的作用。
基于深度学习方法的声音事件定位和检测(SELD),同时进行环境声音的声源定位(SSL)和声音事件检测(SED),这种方法的loss方程中既包含声音事件检测(SED)的输出结果,又包含方向的输出结果,因此容易过拟合。
短时傅里叶变换的系数、IPD、sine和cosine IPD被作为空间信息使用,但是没有对它们进行比较。