说明
关于音频处理,从2017年的一篇论文《神经离散表示学习》开始作为标杆。以后相继的RVQ为关键字的论文大量出现。这篇是关于RVQ和GAN级联的描述方法。其中的看点我且不论 RVQGAN做的如何,就关于这个行业的发展脉络是可见一般的。现在引入作为参考。
原文地址:
https://arxiv.org/pdf/2306.06546.pdf
一、摘要
语言模型已成功用于模拟自然信号,例如图像、语音和音乐。这些模型的一个关键组成部分是高品质可以压缩高维自然信号的神经压缩模型转化为较低维度的离散标记。为此,我们引入了高保真通用神经音频压缩算法,可实现 90 倍压缩仅 8kbps 带宽即可将 44.1 KHz 音频转换为令牌。我们通过结合实现这一目标通过图像领域更好的矢量量化技术,以及改进的对抗和重建技术,在高保真音频生成方面取得了进展损失。我们用一个压缩所有领域(语音、环境、音乐等)通用模型,使其广泛适用于所有音频的生成建模。我们与竞争的音频压缩算法进行比较,并找到我们的方法明显优于他们。我们为每种设计提供彻底的消融选择,以及开源代码和经过训练的模型权重。希望我们的工作可以为下一代高保真音频建模奠定基础。
二、综述
由于高维度(约 44,100 个样本),高分辨率音频的生成建模很困难每秒音频)