【音频处理】音频压缩进展综述

说明

关于音频处理,从2017年的一篇论文《神经离散表示学习》开始作为标杆。以后相继的RVQ为关键字的论文大量出现。这篇是关于RVQ和GAN级联的描述方法。其中的看点我且不论 RVQGAN做的如何,就关于这个行业的发展脉络是可见一般的。现在引入作为参考。

原文地址:
https://arxiv.org/pdf/2306.06546.pdf

一、摘要

语言模型已成功用于模拟自然信号,例如图像、语音和音乐。这些模型的一个关键组成部分是高品质可以压缩高维自然信号的神经压缩模型转化为较低维度的离散标记。为此,我们引入了高保真通用神经音频压缩算法,可实现 90 倍压缩仅 8kbps 带宽即可将 44.1 KHz 音频转换为令牌。我们通过结合实现这一目标通过图像领域更好的矢量量化技术,以及改进的对抗和重建技术,在高保真音频生成方面取得了进展损失。我们用一个压缩所有领域(语音、环境、音乐等)通用模型,使其广泛适用于所有音频的生成建模。我们与竞争的音频压缩算法进行比较,并找到我们的方法明显优于他们。我们为每种设计提供彻底的消融选择,以及开源代码和经过训练的模型权重。希望我们的工作可以为下一代高保真音频建模奠定基础。

二、综述

由于高维度(约 44,100 个样本),高分辨率音频的生成建模很困难每秒音频)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无水先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值