点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
在无监督域自适应中,现有理论着眼于源域和目标域接近的情况。在实践中,即使源域和目标域差别很大,自训练算法也通常很成功。我们分析较大域偏移的一种情况:某些伪特征与源域中的标签相关,但与目标中的标签无关。我们考虑线性模型,伪特征是高斯分布。我们证明了:如果使用相对准确的源模型,自训练在数据分布变化时避免使用伪特征。我们在Celeb-A和MNIST数据集上验证了该理论。我们的结果表明,在标注很难获得的时候,从业人员可以在大型多样无标注的数据集上进行自训练,以提高模型准确性。
陈怡宁:本科毕业于达特茅斯大学计算机和哲学系,现为斯坦福大学计算机系的博士生,导师为马腾宇。主要研究兴趣是机器学习和深度学习理论,尤其是转化学习,无监督和半监督学习,以及在数据分布发生变化时,如何提高模型正确性。
一、背景:无监督域适应
人工智能模型经常遇到一个问题:训练和测试数据分布不同时,模型的正确率往往会下降。举个例子,假如我们要设计一个自动驾驶系统,训练数据集都是在某种天气条件下收集到的,但测试的时候,也就是运用模型的时候,会遇到各种各样的天气,比如晴天、雨天、雾天。由于数据分布发生变化,模型的正确率往往会下降,表现极不稳定。
那么,如何构造一个更加稳定的模型?如何在无监督的情况下进行域适应(unsupervised domain adaptation)?
这种情况下,源领域的数据都有标记,而目标域的数据则无标记。例如在有标记的MNIST数据集和无标记的SVHN数据集上识别数字,MNIST是黑白手写数字,而SVHN则是颜色各异的门牌号码,两者数据分布显然不同。如何在无监督的情况下,在目标域上得到最高的准确性?