HIFI-CODEC

  • 2023.5
  • Dongchao Yang1∗, Songxiang Liu 2∗, Rongjie Huang
  • tencent AI Lab

abstract

本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。

  • 本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。

introduction

  • 编解码器的两个方向:(1)低比特率,低延时,用于通话等实时场景;(2)高保真度。除了压缩之外,也会包含降噪、动态压缩等,帮助还原真实度更高的音频,用于带噪或者低带宽的网络。
  • 本文受启发于SoundStrom和Encodec,这两个工作都是基于encoder-decoder结构的RVQ原理,encoder将音频压缩,然后使用RVQ量化,最后通过decoder将量化的结果还原成音频。
  • RVQ结构的量化,对于音频,最主要的信息都在第一个VQ的结果中,比如文本内容信息,音色信息(只使用第一个进行还原);其他的RVQ作用都是增强语音质量,补充一些音频细节,但是这些信息在hidden embedding中表示会很稀疏,通常需要多个码本才能完成高质量还原,比如Encodec使用了12个码本。码本越多,对于transformer结构的生成任务,长序列建模的负担就会越大。

model

在这里插入图片描述

  • loss=reconst_loss+dis_loss+rvq_loss
  • dis_loss=multi_stft_loss+multi_band_loss+multi_period_loss
    在这里插入图片描述
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值