因果推断+机器学习:2020《Stable Prediction with Model Misspecification and Agnostic Distribution Shift∗》

论文综述: 具有模型错误说明和不可知分布移位的稳定预测

作者: Kun Kuang1,2†, Ruoxuan Xiong3, Peng Cui2, Susan Athey3, Bo Li2
在这里插入图片描述

1.背景:

机器学习假设:

  1. 训练集分布和测试集分布相同
  2. 模型能正确描述(实际上模型的预测的每个结果是有概率出错的)

实际上缺少:

  1. 测试数据的先验知识
  2. 真实模型的先验知识

导致问题:

  1. 未知测试数据预测不稳定性
  2. 参数估计不准确

本文目的: 稳定预测

模型: Decorrelated Weighting Regression (DWR)

思想: 变量去相关正则化 + 加权回归模型
在这里插入图片描述

2. 问题模型

假设: 所有的特征features (predictors) X能分为两类:

  • 稳定特征S(跨越环境(训练集,测试集)而保持不变),对输出Y有因果影响。
  • 不稳定特征V,对Y无因果影响,但V可能和 Y(或S) 有相关性。

在这里插入图片描述
通过假设1,我们可以

  f(S) 来学习稳定预测

  f(S) 来学习稳定预测

  f(S) 来学习稳定预测

  实际上是P(Y|X)的均值。

在这里插入图片描述

2.1 稳定预测问题

环境: 联合分布PXY

 定义了一系列环境ε,不同环境上的联合分布不一定相同。

在这里插入图片描述
在这里插入图片描述

评判标准: 定义平均误差(Average Error)稳定误差(Stability Error)

在这里插入图片描述
在这里插入图片描述
  其中RMSE是均方根误差,两个误差其实是误差均值(Average Error)和误差方差(Stability Error)。
在这里插入图片描述

目标函数: 在未知的预测环境下使得平均误差(Average Error)和稳定误差(Stability Error)都小。
在这里插入图片描述
在这里插入图片描述

2.2 模型思路:去相关+回归

在这里插入图片描述
   f(S) 来学习稳定预测。考虑 线性模型,忽略非线性项。(关于这类的因果推断大多还是用线性回归模型。)

在这里插入图片描述

去相关:

   论文描述:V和Y无因果关系,但V和 S(或g(S)) 可能有相关性,所以要对X的所有特征去掉相关性。(实际上不想找具体的S和V,这里用X的所有特征去相关性。)

  记号: 样本数n个,每个样本的维数是p。记总样本为X如下:
在这里插入图片描述
  每一行数代表一个样本。

  通过重采样使得X的列(的期望)不相关,W是n维向量,Wi表示第i个样本重采样比例(Wi非负,不一定是整数)。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  实际上,上式得到的W对于不同的两列都不同,故而提出下式子(变量去相关正则化):
在这里插入图片描述
在这里插入图片描述
  记损失为LB
在这里插入图片描述

存在这样的W,且不唯一,使损失LB趋于0:
在这里插入图片描述
  上式W不唯一,加正则条件(减少样本权重变化,同时避免样本权重都趋于0):
在这里插入图片描述
在这里插入图片描述
  得到的W是 唯一的 (p是每个样本的维数):
在这里插入图片描述
  通过W 使得X去相关,因此V和S的相关性移除,故在稳定预测中可用 f(X) 的线性模型。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.3 本文模型:Decorrelated Weighting Regression

  在稳定预测中用 线性模型,求系数β用 加权最小二乘

在这里插入图片描述

  把10和11式结合形成本算法:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 实验

在这里插入图片描述(1)先用控制实验(自己构造数据)来测试我们的模型。

  评判标准4个:

在这里插入图片描述
  对比模型(基准):
在这里插入图片描述

在这里插入图片描述

  结果:
在这里插入图片描述

(2)真实实验:

  EPA’s Air Quality System (AQS) database美国各州空气质量数据库,预测空气质量。
在这里插入图片描述
  当测试集和训练集分布分布差异小时,本文的方法结果较差。但当分布差异大时,本文的方法的结果更好。
在这里插入图片描述

4. 结论

  变量去相关正则化器为每个样本估计一个权值,这样变量在加权训练数据上去相关。然后将这些权重用于加权回归,提高对各变量影响估计的准确性,从而提高了对未知试验数据进行预测的稳定性。
  大量实验表明,在模型不确定和分布位移不可知的情况下,DWR算法能显著提高参数估计的准确性和预测的稳定性。

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值