1. introduce
最近的研究人员进一步指出了局部水平对齐的重要性,为了在两个域中保持类结构,一些工作采用了最优传输(OT)来最小化源域和目标域之间的样本级传输成本,在UDA上实现了显著的性能。然而,现有的基于OT的UDA方法仅限于处理类不平衡挑战,并且在考虑大规模训练情况时引入了繁重的计算开销。
为了解决上述两个问题,本文提出了一种基于聚类的最优传输算法,称为COT,以构建聚类级别,而不是源域和目标域之间的样本级别映射。源域中的聚类是从由标记的源域数据监督的分类器中获得的。而对于目标域,COT利用一组可学习聚类来表示目标域的特征分布,可以描述子域信息。例如,在许多对象识别任务中,一个对象可能包含许多属性。每个属性都可以被视为一个子域。为此,源域和目标域上的簇可以分别表示单独的子域信息,使得簇之间的最优传输本质上提供了从源域中的子域到目标域中的子域的局部映射。
此外,提供了理论分析和全面的实验结果,以保证(i)COT可以缓解类不平衡带来的负面影响;(ii)与现有的基于OT的UDA方法相比,COT节省了大量的计算。
2.method
2.1.基于聚类的最优传输
首先,通过ImageNet预训练的细胞神经网络从源域和目标域中提取特征。然后,利用可学习聚类分别表示源域和目标域中的子域。最后,应用基于Kantorovich对偶形式的损失来实现来自两个域的集群之间的最优传输。
特征提取:使用ImageNet预训练(没有完全连接的层)的细胞神经网络(例如ResNet50/ResNet101)来提取特征源域和目标域的特征,需要注意的是,特征的分布在训练阶段会有所不同。
聚类:对于来自源域的每个样本和相应真实标签,将输出分类logits的全连通层表示为,其中|Y|是类别的数量,c是特征通道的数量。
预测的分类概率是。相应的交叉熵损失如下所示:
对于源域,由于已被证明对聚类表示有效,因此本文将分类器
作为源域特征空间的聚类。对于目标域,一组可学习的聚类称为
表示子域,其中K=Q·|Y|是表示目标域中子域数量的超参数,Q是一个正整数,表示每个类的子域数。引入Q的动机是在COT优化过程中保