作者:禅与计算机程序设计艺术
1.简介
音源分离(Music source separation)问题是指将一个混合信号中的不同音源分离出来并得到各自的单独波形的过程。由于不同类别的音乐同时出现在同一个空间中,因此对其进行音源分离非常重要。传统的方法主要集中在统计方法和优化方法两大类,但多模态生成对抗网络(Multimodal Generative Adversarial Networks,简称MGMN)则成为当下热门的研究方向之一。本文提出了一个多模态生成对抗网络,用于音源分离任务,并基于该模型设计了评估标准,比较了不同模型之间的性能差异。作者从2019年开始接触到MGMN的相关研究,目前已有论文发表多篇。本文所涉及到的主流模型包括U-Net、AC-GAN、VAE-GAN、CycleGAN等。
文献的不足之处在于没有进一步阐述MGMN的模型结构、训练方法以及数据集,只简单介绍了模型的一些具体实现,没有给读者一个全面的了解。因此,本文试图提供一个完整的MGMN音源分离模型学习路径,帮助读者更加清楚地理解MGMN的工作原理。
2.基本概念术语说明
MGMN模型结构
MGMN模型由编码器、解码器、判别器组成。其中,编码器用于将输入的多种模态信号分别编码成独立的表示;解码器用于将编码后的特征再还原成原模态信号;判别器用于判断编码后是否真实存在原声信号,判别器的目标就是最大化编码正确率。在训练阶段,MGMN通过梯度反向传播更新参数。
模型训练方法
MGMN的训练方法可以分为以下三步:
- Step 1: 生成器(Generator)的训练
在这个阶段