音频超分辨率:大规模通用音频超分辨率

音频超分辨率是一项基础任务,它预测低分辨率音频的高频成分,从而提高数字应用中的音频质量。现有的方法存在一些局限性,例如音频类型的范围有限(例如,音乐、语音)以及它们可以处理的特定带宽设置(例如,4 kHz 到 8 kHz)。

本文介绍了一种基于扩散的生成模型 AudioSR,它能够对各种音频类型(包括音效、音乐和语音)进行鲁棒的音频超分辨率。具体来说,AudioSR 可以将 2 kHz 到 16 kHz 范围内的任何输入音频信号上采样到 24 kHz 带宽、48 kHz 采样率的高分辨率音频信号。在各种音频超分辨率基准上的广泛客观评估证明了所提出的模型取得了良好的结果。此外,我们的主观评估表明,AudioSR 可以作为一个即插即用的模块来提高各种音频生成模型的生成质量,包括 AudioLDM、Fastspeech2 和 MusicGen。我们的代码和演示可在 https://audioldm.github.io/audiosr 获取。

1. 引言

音频超分辨率(SR)旨在估计低分辨率音频信号的较高频率信息,从而产生具有扩展频率范围的高分辨率音频信号。高分辨率音频信号通常提供更好的聆听体验,通常被称为高保真。由于能够增强音频信号质量,音频超分辨率在各种应用中发挥着重要作用,例如历史录音修复 [1]。

以往关于音频 SR 的研究主要集中在特定领域,特别强调语音 SR。早期的研究将语音 SR 任务分解为频谱包络估计和激励生成 [2]。近年来,采用深度学习技术的著作,例如 AECNN [3]、NuWave [4] 和 NVSR [5],与传统方法相比表现出优越的性能。

除了语音之外,还有一些努力致力于解决音乐 SR,包括对一般音乐 [6] 和特定乐器 [7] 的研究。除了音频范围有限之外,现有的音频 SR 研究也主要是在受控的实验环境中进行的,这限制了它在现实世界场景中的适用性。[5] 中强调了音频超分辨率的一个重要挑战是带宽不匹配问题。当测试数据的带宽与训练数据的带宽不同时,就会出现这种情况,导致模型失效。然而,这个问题在文献中并没有得到足够的重视,因为以往的工作通常假设训练数据和测试数据具有相同的带宽设置。在实践中,测试音频的输入带宽会因录音设备的限制、声音特性或应用的压缩过程等因素而异。只有少数研究探索了灵活的输入带宽,包括 NVSR [5] 和 NuWave2 [8]。然而,这些方法仍然主要集中在语音 SR 上,没有推广到更广泛的领域。

本文提出了一种新方法,它克服了以往工作在音频类型有限和采样率设置受控方面的局限性。我们介绍了一种名为 AudioSR 的方法,它将音频 SR 扩展到通用领域,包括所有可听声音,如音乐、语音和音效。此外,AudioSR 能够处理 4kHz 到 32kHz 之间的灵活输入采样率,涵盖了现实世界场景中的大多数用例。研究发现,神经声码器学习的先验知识有助于在音频 SR 任务中重建较高频率成分 [5]。因此,AudioSR 遵循 [5] 在梅尔谱图上执行音频 SR,并利用神经声码器合成音频信号。为了估计高分辨率梅尔谱图,我们遵循 AudioLDM [9] 在学习从低分辨率梅尔谱图到高分辨率梅尔谱图的条件生成方面训练了一个潜在扩散模型。我们的实验表明,AudioSR 在语音、音乐和音效上取得了有希望的 SR 结果,并且具有不同的输入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值