【文献阅读】基于分别训练频谱特征和空间特征的多通道环境声音分离

最新推荐文章于 2024-01-15 18:36:04 发布

chenlu1617

最新推荐文章于 2024-01-15 18:36:04 发布

阅读量876

点赞数

分类专栏：文献阅读文章标签：语音识别深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41981761/article/details/120450033

版权

【文献阅读】基于分别训练频谱特征和空间特征的多通道环境声音分离

前言
主要贡献
相关基于多通道方法的缺点
本文的方法
方法的具体介绍
实验和数据
- 在SSLS模块使用不同空间特征的对比
- 模型对比

前言

这是一篇关于声音分离和识别的文章，介绍了一种基于多通道的声音分离和声音识别一体化方法，文章中也提到了很多其他方法，并进行了对比，适合想要了解声音识别方面内容的同学，可以通过这篇文章中提到的参考文献找到一系列其他文章。

文章2021年3月被APPLIED INTELLIGENCE期刊接收，APPLIED INTELLIGENCE是人工智能领域3区SCI期刊。

论文阅读可能会存在理解不到位的地方，想要深入阅读的小伙伴可参考原文：https://link.springer.com/content/pdf/10.1007%2Fs10489-021-02314-5.pdf

主要贡献

文章提出使用一个模型同时进行声音分离和分类，将频谱和空间特征输入声源定位和声音分离模块，然后将分离出的每部分音频分别进行分类。

不用提前定义数据源，因为所有方向的声音是同步分离的；
SSLS（声源定位和分离）模块和SSSC（声源分离和分类）模块是分离的，DOA（波达方向）和类别不存在过拟合问题；
将多种空间特征进行对比，发现sine和cosine IPD（interchannel phase difference, 声道间相位差）是最适合声源定位和分离的。

相关基于多通道方法的缺点

传统的瀑布式方法包含多个单独的信号处理技术模块，会导致每个模块的误差累积，因为每个模块单独优化，而没有考虑全局效果。

使用单通道麦克风的基于深度学习的端到端的方法可以同时进行声源分离（SSS）和分类，其效果优于瀑布式方法，但是在多声源导致的声音重叠问题上效果较差，因为单通道麦克风无法获取空间特征。

之后又提出了基于多通道的方法用于自动语音识别（ASR），这类方法可以同时进行声源定位（SSL）、声源分离（SSS）和ASR，除了频谱特征，还是用了IPD作为空间特征，改善多种声音叠加情况下的ASR，但是训练过程中没有使用DOA的loss函数，因此没有有效发挥空间特征的作用。

基于深度学习方法的声音事件定位和检测（SELD），同时进行环境声音的声源定位（SSL）和声音事件检测（SED），这种方法的loss方程中既包含声音事件检测（SED）的输出结果，又包含方向的输出结果，因此容易过拟合。

短时傅里叶变换的系数、IPD、sine和cosine IPD被作为空间信息使用，但是没有对它们进行比较。

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【文献阅读】基于分别训练频谱特征和空间特征的多通道环境声音分离

【文献阅读】基于分别训练频谱特征和空间特征的多通道环境声音分离前言主要贡献相关基于多通道方法的缺点本文的方法方法的具体介绍实验和数据在SSLS模块使用不同空间特征的对比模型对比前言这是一篇关于声音分离和识别的文章，介绍了一种基于多通道的声音分离和声音识别一体化方法，文章中也提到了很多其他方法，并进行了对比，适合想要了解声音识别方面内容的同学，可以通过这篇文章中提到的参考文献找到一系列其他文章。论文阅读可能会存在理解不到位的地方，想要深入阅读的小伙伴可参考原文：https://link.springer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。