当我们的经验无法适应新环境的时候该怎么办? Covariate Shift

前几天偶然看到 Alex Smola (CMU ML Prof) 的一篇 " Real simple covariate shift correction" 博文,论述在机器学习领域一个非常容易被忽略的问题, “Covariate Shift”。

最为直观的解释就是当你的训练集的样本分布和测试集的样本分布不一致的时候,你训练得到的模型是无法有很好的泛化 (Generalization) 能力的。假想你要为一种癌症疾病建立一个分类器,然后你收集了很多病人的材料,然后到学校里面鼓励学生贡献自己的血样作为自己的健康样本。好的,然后开始设计算法训练得到了一个预测准确率非常高的分类模型。但是注意,收集到的样本无法覆盖生活中不同人群,比如学生一般处于10-30岁之间,无酒鬼。为了测试训练得到的分类模型正真的效果,你将模型应用于医院的辅助医疗当中,你会发现到医院来看病的人群和你样本的人群完全不一样,这个就是训练样本的分布和目标样本的分布不一样的很好例子。这种现象在统计学里面也被称作 "Covariate Shift" 。 在ML领域也有很多人讨论这个问题,解决的思路就是要根据训练样本分布和目标样本分布的比例 ( P(x)/Q(x) ) 对训练样本做一个矫正。这里有两篇博文,分别来自 Bigml 和 Smola,Smola从更为理论的角度提供了一种如何利用 Logistics 模型预测  P(x)/Q(x) ,而 Bigml 提供的解决方案则更为直观一些,也提供了数据集,评价指标, Bash 代码。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值