1.Motivation
主流的UDA方法学习两个领域之间的对齐特征,这样在源特征上训练的分类器就可以很容易地应用于目标特征。然而,这种转移策略有可能破坏目标数据的内在差异。为了减轻这种风险,基于结构域相似性的假设,提出通过对目标数据的判别聚类来直接揭示内在的目标差异。使用取决于假设的结构域相似性的结构源正则化来约束聚类解。从技术上讲,使用了一个灵活的基于深度网络的判别聚类框架,该框架最小化了网络的预测标签分布和引入的辅助标签分布之间的KL差异;用源数据的基本真值标签形成的分布代替辅助分布,通过一种简单的联合网络训练策略实现了结构源正则化。将本文提出的方法称为结构正则化深度聚类(SRDC),其中还通过对中间网络特征进行聚类来增强目标识别,并通过软选择发散性较小的源示例来增强结构正则化。
2.转移与揭示内在目标判别的策略
转导UDA的目的是预测,通过学习特征嵌入函数
将任何输入实例x∈X嵌入到特征空间Z,以及分类器f:Z→ RK。与转导UDA有着微妙的不同,感应UDA是测量从同一T采样的保持实例上学习到的
和
的性能。事实上,这种细微的差异很重要,因为希望使用学习到的
和
作为现成的模型,并且希望它们在使用不同的源域学习时保持一致。
在UDA中,通常从理论上或直觉上假设域封闭性。在这项工作中,将[50]中的假设总结为源域和目标域之间的结构相似性,其中包括以下域区分和类接近的概念,如图1所示。
- 域区分假设在各个域中存在数据歧视的内在结构,即源域或目标域中的数据与共享标签空间相对应进行判别性聚类。
- 类紧密性假设对应于同一类标签的两个域的簇在几何上是紧密的。
3.基于结构源正则化的判别目标聚类
将特征嵌入函数和分类器
参数化为深度网络,其中
收集网络参数。为了简单起见,将它们写为
和
,并使用
表示整个网络。对于输入实例x,网络计算特征表示
,并在最终softmax运算后输出概率向量p