打卡第15天,今天学习 通过AI实现自己个性化音乐的创作
首先需要提及的是单语音模型的音乐生成模型 MisicGen,它基于Transformer结构实现,可以分解为三个不同的阶段:
1.用户输入的文本描述传递给一个固定的文本编码器模型,得到一系列隐形状态表示
2.训练MusicGen解码器来预测离散的隐形状态音频token
3.对这些token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形
打卡第15天,今天学习 通过AI实现自己个性化音乐的创作
首先需要提及的是单语音模型的音乐生成模型 MisicGen,它基于Transformer结构实现,可以分解为三个不同的阶段:
1.用户输入的文本描述传递给一个固定的文本编码器模型,得到一系列隐形状态表示
2.训练MusicGen解码器来预测离散的隐形状态音频token
3.对这些token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形