MusicLM:Generating Music From Text

abstract

  • MusicLM:可以根据一段文本描述,比如“a calming violin melody backed by a distorted guitar riff”生成对应的24K音乐,音质和文本一致性优于base;
  • condition输入可以是text,也可以是哼唱或者吹口哨这样的旋律,然后按照文本描述生成乐曲。
  • 开源了MusicCaps,有专家标注的misci–text caption,5.5k条,用于评估模型

introduction

  • 常规的audio generation(包括TTS,lyrics-conditioned music generation),都需要时长对齐信息。
  • 受启发于text-to-image generation,可以通过high-level caption,生成序列信息。diffsound(demo),使用文本作为条件,生成声学事件,使用diffusion作为decoder预测mel-sep,提升生成质量和速度。缺点是,只能生成数秒的音频。
  • AudioLM可以生成长的、高质量的语音。(输入是speech量化后的tokens?)
  • 音频生成的难点:(1)caption数据难以建立:对声音的文本描述不会像图像那么准确,可能包含声学场景(比如在森林里,火车站的录制环境),音乐风格(不同的乐器,音色,旋律等)。(2)声音是有时间尺度的,因此文本描述的注释作用明显弱于图像标题
  • 使用AudioLM作为生成的一部分组件,同时将其拓展为内容可编辑的使用方式(本文实际使用的是SoundStream作为encodec,24Khz的音频,使用6kbps编码)。
  • music-text pair数据稀疏的问题:使用预训练的模型MuLan
    • MuLan原理:可以将音乐和对应的文本描述映射到同一空间。因此,训练MusicLM的时候,music通过MuLan生成embedding,作为训练输入;推理阶段,text通过MuLan生成embedding,作为预测输入。
    • 训练过程只用到music audio数据。为了评估模型,开源了MusicCaps数据集,有专家标注的misic–text caption,5.5k条
  • 因为文本准确描述想要生成的音乐很难,因此支持添加额外的输入,比如哼唱,在此和文本提示下生成旋律一致的音乐。
  • 对于音乐版权的合规性问题,使用MuLan提取的embedding作为训练输入,生成的序列和训练集合有明显不同。

method

Representation and Tokenization of Audio and Text

  • 三个预训练的模型用于提取tokenize
  • SoundStream提取acoustic tokens用于高质量合成;(soundstream将音频量化成多维tokens,然后通过decoder再重建为高质量音频)
  • w2v-BERT提取semantic tokens作为长时一致性生成(k-means聚类,得到有丰富含义的内容表征);
  • MuLan提取music embedding(train stage)或者text embedding(infer stage)

Hierarchical Modeling of Audio Representations

在这里插入图片描述

  • stage1:mulan提取的embedding通过12个RVQ进行量化,然后通过semantic modeling过程映射为w2v-BERT提取的semantic token特征;
  • stage2:mulan RVQ+semantic token通过acoustic modeling过程,映射为soundstream提取的acoustic token特征。为了保证长时生成,生成过程是一个coarse-to-fine的阶段,参考了audioLM的过程。

experiment

setup

  • 两阶段建模的模型都是transformer-decoder only,24 layers, 16 attention heads,
  • MuLan使用的开源模型,使用 Free Music Archive (FMA) dataset 训练SoundStream and w2v-BERT;
  • AudioLM两阶段模型训练:five million audio clips(~280k hours)。semantic stage,随机裁剪30s音频;acoustic stage,随机裁剪10s音频;AudioLM细粒度的建模基于3s音频。
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
音乐转换器是一种能够生成具有长期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的长期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而不仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的长期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有长期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值