论文地址:https://arxiv.org/abs/1802.06403?context=cs.LG
泛读
训练复杂的机器学习模型进行预测通常需要大量的数据,而这些数据并不总是可用的。因此,利用来自相关但不同来源的这些外部数据集是一项重要任务,因为如果需要构建良好的预测模型以便在数据很少的情况下进行部署。然而利用辅助数据训练模型主要有两个问题:特征不匹配和分布不匹配,这会导致源域和目标域的数据不能有效结合,最终引起模型失衡和性能不稳定。
针对上述两种不匹配问题,RadialGAN提供了一个有效的解决办法,其结构能够将所有域联合,实现任意两个域之间的迁移学习。但这种迁移学习是建立在两个域间分布相近的条件上,辅助数据集与目标数据集的相似程度决定了我们所需模型的容量大小,两个域之间距离越近,那么可以认为利用辅助数据生成目标数据更容易,这一原理可以通过以下例子说明:
假定一个固定的目标域为高斯分布,辅助数据分别为高斯分布和均匀分布,那么由辅助数据产生目标数据时,高斯分布在简单的模型中都可以达到较好的结果,而均匀分布的数据即使在复杂的高性能的模型中也和目标数据相距甚远。因此,RadialGAN的辅助数据集可以是和目标域分布相似的数据。
RadialGAN的模型结构如图所示,示例为五个数据域,为对应的标签域,中间的Z为隐层,和分别为第个域和隐层之间的编码器和解码器,为对应第个数据域的判别器,我们的目标是学习5个映射函数,其中,即利用其余域的数据来对域进行分析。
在训练网络过程中,令和,并且对于每个域,定义为随机变量,通过引入判别器来联合训练每个域,得到了第个域的对抗损失为:
对于每个域和隐层之间进行转换时,论文还引入了一个联合损失(cycle-consistency loss),来确保编码之后的特征再解码回来能与原始数据相近,其原理如图所示。
联合损失的目的是使,即通过经过隐层变换后的域数据应和原始域数据相似,经过域变换的隐层数据应和原始隐层数据相似,因此第个域的联合损失为:
利用以上两种损失,对每个F,G和D进行训练,达到利用多个辅助数据集来增扩目标域的数据。在和其他模型在预测性能的对比上也得到了较好的结果:
综上所述,RadialGAN的优势在于:
1)可以同时利用多个辅助数据集对目标域进行增扩,即能最大限度的提高数据量又能保证生成数据的多样性;
2)将数据利用不同的编码器映射到相同的特征空间上,保证了个体数据集的独立性的同时提高模型的表征能力;
3)循环一致性保证了生成的数据能同时保留源域和目标域的语义信息;
4)所生成的数据将会保留原始数据的特征和高层语义信息(如类别标签),与利用噪声生成数据相比,这种类型数据增扩能够极大提高模型泛化能力。