基于MindNLP+MusicGen生成自己的个性化音乐
MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型(LM)的音乐生成模型,能够根据文本描述或音频提示生成高质量的音乐样本,相关研究成果参考论文《Simple and Controllable Music Generation》。
MusicGen模型基于Transformer结构,可以分解为三个不同的阶段:
- 用户输入的文本描述作为输入传递给一个固定的文本编码器模型,以获得一系列隐形状态表示。
- 训练MusicGen解码器来预测离散的隐形状态音频token。
- 对这些音频令牌使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形。
下载模型
本次学习使用small规格的权重,生成的音频质量较低,但是生成的速度是最快的:
生成音乐
MusicGen支持两种生成模式:贪心(greedy)和采样(sampling)。在实际执行过程中,采样模式得到的结果要显著优于贪心模式。
无提示生成
文本提示生成
首先基于文本提示,通过对输入进行预处理。然后将预处理后的输入传递给 方法以生成文本条件音频样本。
音频提示生成
首先加载音频文件,然后进行预处理,并将输入给到网络模型来进行音频生成。
生成配置
学习时间与id: