音源分离 | Hybrid Spectrogram and Waveform Source Separation

一、摘要

        本文提出了基于Demucs架构的的时域+频域的分离模型。提出的模型在2021年索尼组织的音乐分离挑战中获胜。该架构还包括其他改进,如压缩残差分支、局部注意力或奇异值正则化。

        在MusDB HQ数据集上,所有源的信噪比(SDR)平均提高了1.4 dB,这一改进得到了人类主观评估的确认,整体质量评分为2.83分(非混合Demucs为2.36分),污染程度评分为3.04(非混合Demucs为2.37,比赛中排名第二的模型为2.44)。

二、方法

2.1 引言

        音乐源分离的研究集中在将鼓、贝斯、人声和其他伴奏分离的监督方式上。2021年索尼组织的音乐分离挑战(MDX)提供了一个新的在线比赛平台,用于评估分离模型在未知测试集上的表现。

2.2 方法

        

        本研究扩展了Demucs架构,以执行混合波形、频谱域源分离。模型包括时间域和频率域的并行分支,并引入了压缩残差分支、局部注意力和奇异值正则化等改进。这些改进在MusDB基准和MDX隐藏测试集上进行了评估,并进行了主观评估。

三、结果

  

        混合Demucs在音乐分离挑战的Track A中取得了第一名,证明了其在鼓和贝斯源上的强大性能,同时在其他和人声源上也有显著提升。在MusDB数据集上,混合Demucs在鼓和贝斯源上实现了最佳性能,而在其他和人声源上则有所提升,但仍未超过KUIELAB-MDX-Net模型。人类评估结果表明,混合Demucs在整体质量上有所提高,尤其是在减少源之间污染方面。

        总结:本文提出的混合源分离方法在音乐源分离领域取得了重要进展,通过混合波形和频谱域的方法,以及引入的新技术,显著提升了分离质量。尽管如此,该方法也带来了U-Net编码器、解码器复杂性的增加,这需要在未来的工作中进一步优化和简化

【原文链接】https://arxiv.org/pdf/2111.03600

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值