标题：EnCodec：高保真神经音频压缩，重塑音频编码新标准-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00203/article/details/140978492

标题：EnCodec：高保真神经音频压缩，重塑音频编码新标准

项目地址:https://gitcode.com/gh_mirrors/en/encodec

在数字音频的世界中，高效且高质量的压缩技术是不可或缺的一部分。Facebook Research带来的EnCodec，正是这样一项创新成果，它代表了高保真神经音频压缩的新高度。这款开源项目不仅提供了先进的模型，还展示了如何将音频处理推向新的边界。

项目介绍

EnCodec是一种基于神经网络的音频编码方案，其目标是在保持音质的同时，大幅度减少音频文件的大小。该项目包括两种不同带宽的预训练模型：一种适用于24kHz单声道音频的因果模型，另一种是针对48kHz立体声音乐的非因果模型。模型支持多种压缩速率，最高可实现高达40%的额外压缩，而不会损失音质。

项目技术分析

EnCodec采用了卷积LSTM编码器和解码器，中间结合残差向量量化（Residual Vector Quantization, RVQ）技术。除此之外，还包括一个预训练语言模型，用于进一步提升压缩效率。项目还提供了一个新颖的多尺度复频谱判别器（MS-STFT discriminator）和均衡器（balancer），以优化声音质量。