【音频处理】音频压缩进展综述

无水先生

已于 2024-04-24 11:15:33 修改

阅读量3k

点赞数 19

分类专栏：语音编程人工智能综合文章标签：音视频神经网络

于 2024-04-24 11:04:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gongdiwudu/article/details/138146764

版权

人工智能综合同时被 2 个专栏收录

918 篇文章 ¥199.90 ¥299.90

订阅专栏

9 篇文章

订阅专栏

目录

说明
一、摘要
二、综述
三、相关工作
四、结论

说明

关于音频处理，从2017年的一篇论文《神经离散表示学习》开始作为标杆。以后相继的RVQ为关键字的论文大量出现。这篇是关于RVQ和GAN级联的描述方法。其中的看点我且不论 RVQGAN做的如何，就关于这个行业的发展脉络是可见一般的。现在引入作为参考。

原文地址：
https://arxiv.org/pdf/2306.06546.pdf

一、摘要

语言模型已成功用于模拟自然信号，例如图像、语音和音乐。这些模型的一个关键组成部分是高品质可以压缩高维自然信号的神经压缩模型转化为较低维度的离散标记。为此，我们引入了高保真通用神经音频压缩算法，可实现 90 倍压缩仅 8kbps 带宽即可将 44.1 KHz 音频转换为令牌。我们通过结合实现这一目标通过图像领域更好的矢量量化技术，以及改进的对抗和重建技术，在高保真音频生成方面取得了进展损失。我们用一个压缩所有领域（语音、环境、音乐等）通用模型，使其广泛适用于所有音频的生成建模。我们与竞争的音频压缩算法进行比较，并找到我们的方法明显优于他们。我们为每种设计提供彻底的消融选择，以及开源代码和经过训练的模型权重。希望我们的工作可以为下一代高保真音频建模奠定基础。

二、综述

由于高维度（约 44,100 个样本），高分辨率音频的生成建模很困难每秒音频）

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

无水先生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。