DAC: High-Fidelity Audio Compression with Improved RVQGAN

最新推荐文章于 2024-08-31 09:52:50 发布

林林宋

最新推荐文章于 2024-08-31 09:52:50 发布

阅读量251

点赞数 3

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40168949/article/details/141572451

版权

abstrat

编码器评判的标准：（1）近乎无损的还原；（2）高压缩比；（3）适用于各种信号（speech/music)，以及各种采样率和文件格式（mp3/wav）；
模型和VQ-GANs的结构基本一致，fully conv，Encodec/Soundstream 也是这种模式；
激活函数改进：Leaky ReLUs对于捕捉信号中的周期性比较差，替换为Snake activation function，其中α控制信号的周期成分；这个对音频保真度的改进比较明显；【振幅和周期】- VQ码本：初始化对于训练过程码本的利用率很重要，比如k-means聚类初始化比随机初始化更好一些；如果训练过程中连续多个batch没有用到的码本，再次初始化；但是仍然存在码本利用不足的情况。
factorized codes ：对码本在低维空间进行Factorization decouple（因子解耦）；this can be interpreted as a code lookup using only the principal components of the input vector that maximally explain the variance in the data. ----- encoder的embedding是高维的，codebook的dim缩小，通过linear 变换【Factorization decouple】到低维度，
L2-normalized codes. 对codebook embedding的L2 正则，使得欧几里得距离转换为余弦相似性，这有助于稳定性和质量
通过这两点的改进，本模型训练时候可以复用VQ-VAE codebook 以及commitment losses，而不需要k-means初始化以及随机重启；

关注