HIFI-CODEC

最新推荐文章于 2025-05-13 22:10:49 发布

林林宋

最新推荐文章于 2025-05-13 22:10:49 发布

阅读量546

点赞数

分类专栏： paper笔记文章标签：深度学习

原文链接：https://arxiv.org/abs/2305.02765

版权

163 篇文章

订阅专栏

本文提出一个高分辨率的编解码器，HiFiCodecs，提出了group-residual vector quantization (GRVQ)的方案，使用4个码本。

本文的motivation:在保证高质量还原的目标下，使用更少的码本。因为RVQ的第一个码本包含最多的信息，因此对于第一层编码，使用多个码本，即GroupRVQ。

编解码器的两个方向：（1）低比特率，低延时，用于通话等实时场景；（2）高保真度。除了压缩之外，也会包含降噪、动态压缩等，帮助还原真实度更高的音频，用于带噪或者低带宽的网络。
本文受启发于SoundStrom和Encodec，这两个工作都是基于encoder-decoder结构的RVQ原理，encoder将音频压缩，然后使用RVQ量化，最后通过decoder将量化的结果还原成音频。
RVQ结构的量化，对于音频，最主要的信息都在第一个VQ的结果中，比如文本内容信息，音色信息（只使用第一个进行还原）；其他的RVQ作用都是增强语音质量，补充一些音频细节，但是这些信息在hidden embedding中表示会很稀疏，通常需要多个码本才能完成高质量还原，比如Encodec使用了12个码本。码本越多，对于transformer结构的生成任务，长序列建模的负担就会越大。