音源分离|MUSIC SOURCE SEPARATION BASED ON A LIGHTWEIGHT DEEP LEARNING FRAMEWORK

本文提出了一种新的轻量级架构DTTNet,通过集成和优化双路径模块及TFC-TDFUNet,减少冗余参数,实现在MSS任务中对人声的10.12dBcSDR提升,同时参数数量显著减少。研究还评估了DTTNet在复杂音频模式下的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、文章摘要

        音源分离(Music source separation ,MSS)旨在从一段混合音乐中提取“人声”,“鼓”,“贝斯”和“其他”音轨。虽然深度学习方法已经显示出令人印象深刻的结果,且有一个趋势是使用更大的模型去实现音源分离。但在本文中,介绍了一种新的轻量级架构DTTNet,它基于双路径模块和时频卷积时间分布全连接UNet(TFC-TDF UNet)。与Bandsplit RNN(BSRNN)相比,DTTNet在“人声”上实现了10.12 dB的cSDR,而BSRNN为10.01 dB,但参数数量减少了86.7%。我们还评估了特定模式的性能和模型对复杂音频模式的泛化能力。

二、本文方法

2.1 背景

        目前用于分离MSS问题中“人声”音轨的最先进模型是Band-split Recurrent Neural Network (BSRNN)[12]和Time-Frequency ConvolutionsTime-Distributed Fully-connected UNet (TFC-TDF UNet)v3[13]。

        BSRNN在谱图上预测一个复值的掩模,并使用全连接层(FC)和多层感知器(MLP)对特征进行编码和解码。编码后的特征通过12个双路径rnn进一步处理,以捕获子带间和子带内的依赖关系。然而,FC层和MLP层引入了大量冗余参数,并且12层双路径rnn需要增加训练时间

        FC-TDF UNet v3使用残差卷积块。此外,TFC-TDF UNet v3没有引入显式时间建模,因此当模型

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值