AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习
本文提出了一个框架,利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法,称为 "音频语言"(LOA)。任何音频都可以根据 AudioMAE(一种自我监督的预训练表示学习模型)翻译成 LOA。在生成过程中,我们使用 GPT-2 模型将任何模态转化为 LOA,并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。
原创
2023-09-04 20:14:40 ·
491 阅读 ·
1 评论