领域自适应(domain adaptation)是迁移学习中的一种方法,旨在利用源域中标注好的数据,学习一个精确的模型,运用到无标注或只有少量标注的目标域中。本质上是一种数据增强的迁移方法。
领域自适应最常见的方法是找一个公共特征空间,将源域和目标域数据都映射过去,在该空间进行分布对齐。最近很流行的方法是利用领域对抗训练,也就是设置一个判别网络,判断特征数据来自于源域还是目标域,特征提取器通过与判别器的对抗实现特征空间的对齐。相关理论分析见文章:
种豆南山下:《迁移学习》: 领域自适应(Domain Adaptation)的理论分析zhuanlan.zhihu.com那么基于对抗的领域自适应还存在什么问题呢。这篇文章来介绍一下,主要分析来自于参考文献[1]。
符号定义
首先我们定义数据和标签分别为
和
,源域的联合分布为
,目标域的联合分布为
。
源域的边缘分布为
,并且由边缘分布定义随机变量
和支撑集
,可以理解为
是源域数据可能取的点,
是所有这些点的集合,支撑集的意思就是随机变量
所有概率值不为0的取值集合。同样的,目标域为
、
和
。
和