Stable Prediction with Model Misspecification and Agnostic Distribution Shift
论文综述: 具有模型错误说明和不可知分布移位的稳定预测
作者: Kun Kuang1,2†, Ruoxuan Xiong3, Peng Cui2, Susan Athey3, Bo Li2
1.背景:
机器学习假设:
- 训练集分布和测试集分布相同
- 模型能正确描述(实际上模型的预测的每个结果是有概率出错的)
实际上缺少:
- 测试数据的先验知识
- 真实模型的先验知识
导致问题:
- 未知测试数据预测不稳定性
- 参数估计不准确
本文目的: 稳定预测
模型: Decorrelated Weighting Regression (DWR)
思想: 变量去相关正则化 + 加权回归模型
2. 问题模型
假设: 所有的特征features (predictors) X能分为两类:
- 稳定特征S(跨越环境(训练集,测试集)而保持不变),对输出Y有因果影响。
- 不稳定特征V,对Y无因果影响,但V可能和 Y(或S) 有相关性。
通过假设1,我们可以
用 f(S) 来学习稳定预测。
用 f(S) 来学习稳定预测。
用 f(S) 来学习稳定预测。
实际上是P(Y|X)的均值。
2.1 稳定预测问题
环境: 联合分布PXY
定义了一系列环境ε,不同环境上的联合分布不一定相同。
评判标准: 定义平均误差(Average Error) 和稳定误差(Stability Error):
其中RMSE是均方根误差,两个误差其实是误差均值(Average Error)和误差方差(Stability Error)。
目标函数: 在未知的预测环境下使得平均误差(Average Error)和稳定误差(Stability Error)都小。
2.2 模型思路:去相关+回归
f(S) 来学习稳定预测。考虑 线性模型,忽略非线性项。(关于这类的因果推断大多还是用线性回归模型。)
去相关:
论文描述:V和Y无因果关系,但V和 S(或g(S)) 可能有相关性,所以要对X的所有特征去掉相关性。(实际上不想找具体的S和V,这里用X的所有特征去相关性。)
记号: 样本数n个,每个样本的维数是p。记总样本为X如下:
每一行数代表一个样本。
通过重采样使得X的列(的期望)不相关,W是n维向量,Wi表示第i个样本重采样比例(Wi非负,不一定是整数)。
实际上,上式得到的W对于不同的两列都不同,故而提出下式子(变量去相关正则化):
记损失为LB:
存在这样的W,且不唯一,使损失LB趋于0:
上式W不唯一,加正则条件(减少样本权重变化,同时避免样本权重都趋于0):
得到的W是 唯一的 (p是每个样本的维数):
通过W 使得X去相关,因此V和S的相关性移除,故在稳定预测中可用 f(X) 的线性模型。
2.3 本文模型:Decorrelated Weighting Regression
在稳定预测中用 线性模型,求系数β用 加权最小二乘。
把10和11式结合形成本算法:
3. 实验
(1)先用控制实验(自己构造数据)来测试我们的模型。
评判标准4个:
对比模型(基准):
结果:
(2)真实实验:
EPA’s Air Quality System (AQS) database美国各州空气质量数据库,预测空气质量。
当测试集和训练集分布分布差异小时,本文的方法结果较差。但当分布差异大时,本文的方法的结果更好。
4. 结论
变量去相关正则化器为每个样本估计一个权值,这样变量在加权训练数据上去相关。然后将这些权重用于加权回归,提高对各变量影响估计的准确性,从而提高了对未知试验数据进行预测的稳定性。
大量实验表明,在模型不确定和分布位移不可知的情况下,DWR算法能显著提高参数估计的准确性和预测的稳定性。