斯坦福学霸理论验证：自学习如何避免使用伪特征？

AITIME论道

于 2021-01-22 17:53:35 发布

阅读量7.0k

点赞数 8

文章标签：算法计算机视觉神经网络机器学习人工智能

本文链接：https://blog.csdn.net/AITIME_HY/article/details/113011386

版权

斯坦福研究揭示，即使源域和目标域差异大，自训练算法也能有效避免使用伪特征。理论证明在数据分布变化时，线性模型的自学习能减少对伪特征的依赖，提高目标域准确性。实验在Celeb-A和MNIST数据集上验证了这一理论，表明自训练在无标签数据上可提升模型准确性。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在无监督域自适应中，现有理论着眼于源域和目标域接近的情况。在实践中，即使源域和目标域差别很大，自训练算法也通常很成功。我们分析较大域偏移的一种情况：某些伪特征与源域中的标签相关，但与目标中的标签无关。我们考虑线性模型，伪特征是高斯分布。我们证明了：如果使用相对准确的源模型，自训练在数据分布变化时避免使用伪特征。我们在Celeb-A和MNIST数据集上验证了该理论。我们的结果表明，在标注很难获得的时候，从业人员可以在大型多样无标注的数据集上进行自训练，以提高模型准确性。

陈怡宁：本科毕业于达特茅斯大学计算机和哲学系，现为斯坦福大学计算机系的博士生，导师为马腾宇。主要研究兴趣是机器学习和深度学习理论，尤其是转化学习，无监督和半监督学习，以及在数据分布发生变化时，如何提高模型正确性。

一、背景：无监督域适应

人工智能模型经常遇到一个问题：训练和测试数据分布不同时，模型的正确率往往会下降。举个例子，假如我们要设计一个自动驾驶系统，训练数据集都是在某种天气条件下收集到的，但测试的时候，也就是运用模型的时候，会遇到各种各样的天气，比如晴天、雨天、雾天。由于数据分布发生变化，模型的正确率往往会下降，表现极不稳定。