SoundStream论文阅读

最新推荐文章于 2025-04-29 12:24:11 发布

Anita429

最新推荐文章于 2025-04-29 12:24:11 发布

阅读量654

点赞数

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anita_Liu98/article/details/134612917

版权

原文：https://arxiv.org/pdf/2107.03312.pdf

音频编解码器

音频编解码器可分为两大类：波形编解码器和参数编解码器。

波形编码器是主要是通过一些可逆的变换，编码时对音频进行量化，解码时希望能尽可能地重构波形。它不做太多的先验假设，在中高比特率时效果很好，但是低比特率容易出现一些瑕疵。

而参数编码器通常会有比较强的先验假设，通过估计参数，来重构听感上相似的音频。

这些传统的方法通常需要依赖一些心理声学和语音合成领域的知识来精心设计一个方案。

nn可以通过音频超分辨率，即扩展频率带宽，通过音频降噪，即去除有损编码伪影，或通过数据包丢失隐藏，来将它们用作后处理步骤以提高现有编解码器的质量。还有一些nn的vocoder，比如wavenet，lpcnet，wavernn已经应用在了语音合成领域。

参考：

LPCNet: Realtime Neural Vocoder - 知乎

【论文翻译】SoundStream: An End-to-End Neural Audio Codec - 知乎

下图表明了soundstream相比其他的编解码方式，达到了sota的效果，在中低比特率下，也能重建出高音质的音频。

模型结构

理解Residual Vector Quantizer

Vector Quantization：

利亚德空间计算(Lloyd's algorithm)，是一种常用的空间数据聚类算法,被广泛应用于数据挖掘、图像处理等领域。也是我们通常所用说的K-means算法最常见的实现方式。可以通过广义Lloyd算法 (GLA) 扩展到高维空间。参考：K-Means 聚类算法_慕课手记

vector quantization做的是将高维空间的一个点，映射为一组离散的编码。

在传统编码方式中，向量量化已经得到了广泛应用。比如说CELP。全称为Code Excited Linear Prediction，即码激励线性预测编码。

参考：

Speex手册（七）——CELP编码介绍-CSDN博客

音频编解码介绍（最全） - 知乎

CELP_百度百科

音视频流媒体开发系列（4）音频编解码的原理 - 知乎

详解音频编解码的原理、演进和应用选型等 - 知乎

语音识别 04 语音信号的线性预测分析 - 知乎

博客等级

码龄7年

3
原创

1
点赞

2
收藏

1
粉丝

关注

私信

热门文章

最新评论

SoundStream论文阅读
CSDN-Ada助手: 恭喜您撰写了第三篇博客！标题中提到的“SoundStream论文阅读”听起来非常引人注目。您持续创作的努力令人钦佩。对于下一步的创作建议，也许您可以考虑分享一些与音频技术相关的实际应用案例，或者深入探讨SoundStream论文中的一些关键观点。期待您未来更多的博客作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
吃瓜日记 Task1
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。