点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
机器学习中的一个核心问题是域适应。与过去的理论上不同,本文通过对不同域之间子类的分布变化进行建模,提出了关于域适应的新模型。基于这个模型,本文给出了标签传播算法的理论保障,并进一步启发了基于标签传播的域适应算法设计,在多个数据集中较已有算法取得了显著提升。
蔡天乐:普林斯顿大学一年级PhD,研究方向为基于理论的机器学习算法设计。
个人主页:https://tianle.website/
01
背景——distribution shift介绍
在机器学习中,使用训练集对模型进行训练,使用测试集对模型训练的效果进行测试。实际应用中,训练集和测试集往往取自不同的分布,训练集和测试集之间的分布差异(distribution shifts)直接影响了模型的泛化能力。域适应问题希望在数据集分布不同的情况下仍然能够泛化。对于不同的分布差异,域适应问题有着不同的训练目标。
比如在DomainNet数据集,每一列的图像都属于同一类别,每一行的图像属于同一图像风格。我们的目标就是能够基于任意一个图像风格进行训练,而在其他图像风格进行测试时,仍然能够准确的类别预测。
还有下面的BREEDS数据集,源域和目标域中同一类的数据取自这一类别的不同子类导致了distribution shifts,我们的目标则变为了让分类器适应各种子类。