DAC: High-Fidelity Audio Compression with Improved RVQGAN

  • Rithesh Kumar
  • Descript, Inc.
  • 2023NIPS
    code

文章目录

abstrat

  • 44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, music
  • codebook collapse: 部分码本没有利用到。----
  • quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----

method

  • 编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(speech/music),以及各种采样率和文件格式(mp3/wav);
    在这里插入图片描述
  • 模型和VQ-GANs的结构基本一致,fully conv,Encodec/Soundstream 也是这种模式;
  • 激活函数改进:Leaky ReLUs对于捕捉信号中的周期性比较差,替换为Snake activation function,其中α控制信号的周期成分;这个对音频保真度的改进比较明显;【振幅和周期】$snake(x) = x + α1 sin2(αx) $- VQ码本:初始化对于训练过程码本的利用率很重要,比如k-means聚类初始化比随机初始化更好一些;如果训练过程中连续多个batch没有用到的码本,再次初始化;但是仍然存在码本利用不足的情况。
  • factorized codes :对码本在低维空间进行Factorization decouple(因子解耦);this can be interpreted as a code lookup using only the principal components of the input vector that maximally explain the variance in the data. ----- encoder的embedding是高维的,codebook的dim缩小,通过linear 变换【Factorization decouple】到低维度,
  • L2-normalized codes. 对codebook embedding的L2 正则,使得欧几里得距离转换为余弦相似性,这有助于稳定性和质量
  • 通过这两点的改进,本模型训练时候可以复用VQ-VAE codebook 以及commitment losses,而不需要k-means初始化以及随机重启;
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值