- 2023.5
- Dongchao Yang1∗, Songxiang Liu 2∗, Rongjie Huang
- tencent AI Lab
abstract
本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。
- 本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。
introduction
- 编解码器的两个方向:(1)低比特率,低延时,用于通话等实时场景;(2)高保真度。除了压缩之外,也会包含降噪、动态压缩等,帮助还原真实度更高的音频,用于带噪或者低带宽的网络。
- 本文受启发于SoundStrom和Encodec,这两个工作都是基于encoder-decoder结构的RVQ原理,encoder将音频压缩,然后使用RVQ量化,最后通过decoder将量化的结果还原成音频。
- RVQ结构的量化,对于音频,最主要的信息都在第一个VQ的结果中,比如文本内容信息,音色信息(只使用第一个进行还原);其他的RVQ作用都是增强语音质量,补充一些音频细节,但是这些信息在hidden embedding中表示会很稀疏,通常需要多个码本才能完成高质量还原,比如Encodec使用了12个码本。码本越多,对于transformer结构的生成任务,长序列建模的负担就会越大。
model
- loss=reconst_loss+dis_loss+rvq_loss
- dis_loss=multi_stft_loss+multi_band_loss+multi_period_loss