MusicGen模型基于Transformer结构,可以分解为三个不同的阶段:
1. 用户输入的文本描述作为输入传递给一个固定的文本编码器模型,以获得一系列隐形状态表示。
2. 训练MusicGen解码器来预测离散的隐形状态音频token。
3. 对这些音频token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形。
MusicGen模型基于Transformer结构,可以分解为三个不同的阶段:
1. 用户输入的文本描述作为输入传递给一个固定的文本编码器模型,以获得一系列隐形状态表示。
2. 训练MusicGen解码器来预测离散的隐形状态音频token。
3. 对这些音频token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形。