本文研究无监督迁移学习,也就是说在目标域中y的标签是缺失。最泛化的情况是同时存在label shift和class-conditional shift。
label shift: p S ( y = j ) ≠ p T ( y = j ) p_S(y=j)\neq p_T(y=j) pS(y=j)=pT(y=j)
class-conditional shift: p S ( z ∣ y = j ) ≠ p T ( z ∣ y = j ) p_S(z|y=j)\neq p_T(z|y=j) pS(z∣y=j)=pT(z∣y=j)
标记
含义 | |
---|---|
输入和输出空间 | |
潜在空间 | |
从X到Z的representation mappings的集合 | |
假设空间,从Z到Y的函数集合 | |
U | {S, T} |
潜在空间的条件概率 | |
类别j的标签比例 |
过往研究举例
- Zhang等人(2013)使用分布的核嵌入来估计重要权值,并对样本进行转换,从而匹配类条件分布。
- Gong等人(2016)遵循类似的想法,假设存在一个将源类条件映射到目标类条件的线性映射。
- Combes等人(2020)提出了对这一问题的理论分析,表明通过匹配两个领域中的标签比例和类条件,可以实现目标泛化。
核心目标
在上述偏移存在的情况下,无监督迁移学习的核心目标是优化如下问题:
- L ( . , . ) L(., .) L(.,.)是连续损失函数
- D ( . , . ) D(., .) D(.,.)是源域和目标域的概率分布的距离度量
- Ω ( . , . ) \Omega(., .) Ω(.,.)是罚函数项
因此具体目标是
- 最小化边际分布的距离
- 正确预测标签
最优传输
最优传输最早在18世纪80年代由蒙格(Monge)提出,传统的蒙格表示法较为复杂。在上世纪由Kantorovich提出新的松弛表示法,他还在1975年因这个贡献获得诺贝尔经济学奖。
最优传输可以对离散情况和连续情况都讨论,本论文只需要考虑离散情况。
例子
在下图中有 { x i } i = 1 N \{x_i\}_{i=1}^N { xi}i=1N个仓库, { y j } j = 1 N \{y_j\}_{j=1}^N { yj}j=1N