斯坦福学霸理论验证:自学习如何避免使用伪特征?

斯坦福研究揭示,即使源域和目标域差异大,自训练算法也能有效避免使用伪特征。理论证明在数据分布变化时,线性模型的自学习能减少对伪特征的依赖,提高目标域准确性。实验在Celeb-A和MNIST数据集上验证了这一理论,表明自训练在无标签数据上可提升模型准确性。
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在无监督域自适应中,现有理论着眼于源域和目标域接近的情况。在实践中,即使源域和目标域差别很大,自训练算法也通常很成功。我们分析较大域偏移的一种情况:某些伪特征与源域中的标签相关,但与目标中的标签无关。我们考虑线性模型,伪特征是高斯分布。我们证明了:如果使用相对准确的源模型,自训练在数据分布变化时避免使用伪特征。我们在Celeb-A和MNIST数据集上验证了该理论。我们的结果表明,在标注很难获得的时候,从业人员可以在大型多样无标注的数据集上进行自训练,以提高模型准确性。

陈怡宁:本科毕业于达特茅斯大学计算机和哲学系,现为斯坦福大学计算机系的博士生,导师为马腾宇。主要研究兴趣是机器学习和深度学习理论,尤其是转化学习,无监督和半监督学习,以及在数据分布发生变化时,如何提高模型正确性。

一、背景:无监督域适应

人工智能模型经常遇到一个问题:训练和测试数据分布不同时,模型的正确率往往会下降。举个例子,假如我们要设计一个自动驾驶系统,训练数据集都是在某种天气条件下收集到的,但测试的时候,也就是运用模型的时候,会遇到各种各样的天气,比如晴天、雨天、雾天。由于数据分布发生变化,模型的正确率往往会下降,表现极不稳定。

 

那么,如何构造一个更加稳定的模型?如何在无监督的情况下进行域适应(unsupervised domain adaptation)?

这种情况下,源领域的数据都有标记,而目标域的数据则无标记。例如在有标记的MNIST数据集和无标记的SVHN数据集上识别数字,MNIST是黑白手写数字,而SVHN则是颜色各异的门牌号码,两者数据分布显然不同。如何在无监督的情况下,在目标域上得到最高的准确性?

 

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值