MusicLM:Generating Music From Text_musiclm: generating music from text-CSDN博客

文章目录

abstract
introduction
method
- Representation and Tokenization of Audio and Text
- Hierarchical Modeling of Audio Representations
experiment
- setup

demo page
开源数据
google research

abstract

MusicLM：可以根据一段文本描述，比如“a calming violin melody backed by a distorted guitar riff”生成对应的24K音乐，音质和文本一致性优于base；
condition输入可以是text，也可以是哼唱或者吹口哨这样的旋律，然后按照文本描述生成乐曲。
开源了MusicCaps，有专家标注的misci–text caption，5.5k条，用于评估模型

introduction

常规的audio generation(包括TTS，lyrics-conditioned music generation)，都需要时长对齐信息。
受启发于text-to-image generation，可以通过high-level caption，生成序列信息。diffsound(demo)，使用文本作为条件，生成声学事件，使用diffusion作为decoder预测mel-sep，提升生成质量和速度。缺点是，只能生成数秒的音频。
AudioLM可以生成长的、高质量的语音。（输入是speech量化后的tokens？）
音频生成的难点：（1）caption数据难以建立：对声音的文本描述不会像图像那么准确，可能包含声学场景（比如在森林里，火车站的录制环境），音乐风格（不同的乐器，音色，旋律等）。（2）声音是有时间尺度的，因此文本描述的注释作用明显弱于图像标题
使用AudioLM作为生成的一部分组件，同时将其拓展为内容可编辑的使用方式(本文实际使用的是SoundStream作为encodec，24Khz的音频，使用6kbps编码）。
music-text pair数据稀疏的问题：使用预训练的模型MuLan
- MuLan原理：可以将音乐和对应的文本描述映射到同一空间。因此，训练MusicLM的时候，music通过MuLan生成embedding，作为训练输入；推理阶段，text通过MuLan生成embedding，作为预测输入。
- 训练过程只用到music audio数据。为了评估模型，开源了MusicCaps数据集，有专家标注的misic–text caption，5.5k条
因为文本准确描述想要生成的音乐很难，因此支持添加额外的输入，比如哼唱，在此和文本提示下生成旋律一致的音乐。
对于音乐版权的合规性问题，使用MuLan提取的embedding作为训练输入，生成的序列和训练集合有明显不同。

method

Representation and Tokenization of Audio and Text

三个预训练的模型用于提取tokenize
SoundStream提取acoustic tokens用于高质量合成；（soundstream将音频量化成多维tokens，然后通过decoder再重建为高质量音频）
w2v-BERT提取semantic tokens作为长时一致性生成（k-means聚类，得到有丰富含义的内容表征）；
MuLan提取music embedding(train stage)或者text embedding（infer stage)

Hierarchical Modeling of Audio Representations

在这里插入图片描述

stage1：mulan提取的embedding通过12个RVQ进行量化，然后通过semantic modeling过程映射为w2v-BERT提取的semantic token特征；
stage2：mulan RVQ+semantic token通过acoustic modeling过程，映射为soundstream提取的acoustic token特征。为了保证长时生成，生成过程是一个coarse-to-fine的阶段，参考了audioLM的过程。

experiment

setup

两阶段建模的模型都是transformer-decoder only，24 layers， 16 attention heads，
MuLan使用的开源模型，使用 Free Music Archive (FMA) dataset 训练SoundStream and w2v-BERT；
AudioLM两阶段模型训练：five million audio clips（～280k hours）。semantic stage，随机裁剪30s音频；acoustic stage，随机裁剪10s音频；AudioLM细粒度的建模基于3s音频。