因果推断+机器学习：2020《Stable Prediction with Model Misspecification and Agnostic Distribution Shift∗》

最新推荐文章于 2024-01-21 03:44:33 发布

星竹紫兰

最新推荐文章于 2024-01-21 03:44:33 发布

阅读量2.1k

点赞数 1

分类专栏：论文笔记因果推断机器学习文章标签：人工智能深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22497977/article/details/109016918

版权

论文笔记同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

2 篇文章 1 订阅

订阅专栏

Stable Prediction with Model Misspecification and Agnostic Distribution Shift

1.背景：
2. 问题模型
3. 实验
4. 结论

论文综述： 具有模型错误说明和不可知分布移位的稳定预测

作者： Kun Kuang1,2†, Ruoxuan Xiong3, Peng Cui2, Susan Athey3, Bo Li2
在这里插入图片描述

1.背景：

机器学习假设：

训练集分布和测试集分布相同
模型能正确描述（实际上模型的预测的每个结果是有概率出错的）

实际上缺少：

测试数据的先验知识
真实模型的先验知识

导致问题：

未知测试数据预测不稳定性
参数估计不准确

本文目的： 稳定预测

模型： Decorrelated Weighting Regression (DWR)

思想： 变量去相关正则化 + 加权回归模型
在这里插入图片描述

2. 问题模型

假设： 所有的特征features (predictors) X能分为两类:

稳定特征S（跨越环境(训练集，测试集)而保持不变），对输出Y有因果影响。
不稳定特征V，对Y无因果影响，但V可能和 Y(或S) 有相关性。

在这里插入图片描述
通过假设1，我们可以

用 f(S) 来学习稳定预测。

用 f(S) 来学习稳定预测。

用 f(S) 来学习稳定预测。

实际上是P(Y|X)的均值。

在这里插入图片描述

2.1 稳定预测问题

环境： 联合分布P_XY

定义了一系列环境ε，不同环境上的联合分布不一定相同。

在这里插入图片描述

评判标准： 定义平均误差（Average Error） 和稳定误差（Stability Error）：

在这里插入图片描述

其中RMSE是均方根误差，两个误差其实是误差均值（Average Error）和误差方差（Stability Error）。

目标函数： 在未知的预测环境下使得平均误差（Average Error）和稳定误差（Stability Error）都小。
在这里插入图片描述

2.2 模型思路：去相关+回归

在这里插入图片描述
f(S) 来学习稳定预测。考虑 线性模型，忽略非线性项。（关于这类的因果推断大多还是用线性回归模型。）

在这里插入图片描述

去相关：

论文描述：V和Y无因果关系，但V和 S(或g(S)) 可能有相关性，所以要对X的所有特征去掉相关性。（实际上不想找具体的S和V，这里用X的所有特征去相关性。）

记号： 样本数n个，每个样本的维数是p。记总样本为X如下：
在这里插入图片描述
每一行数代表一个样本。

通过重采样使得X的列(的期望)不相关，W是n维向量，W_i表示第i个样本重采样比例（W_i非负，不一定是整数）。在这里插入图片描述

实际上，上式得到的W对于不同的两列都不同，故而提出下式子（变量去相关正则化）：

记损失为L_B：

存在这样的W，且不唯一，使损失L_B趋于0：
在这里插入图片描述
上式W不唯一，加正则条件（减少样本权重变化，同时避免样本权重都趋于0）：

得到的W是 唯一的 （p是每个样本的维数）：

通过W 使得X去相关，因此V和S的相关性移除，故在稳定预测中可用 f(X) 的线性模型。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.3 本文模型：Decorrelated Weighting Regression

在稳定预测中用 线性模型，求系数β用 加权最小二乘。

在这里插入图片描述

把10和11式结合形成本算法：

在这里插入图片描述

3. 实验

在这里插入图片描述（1）先用控制实验（自己构造数据）来测试我们的模型。

评判标准4个：

在这里插入图片描述
对比模型（基准）：

在这里插入图片描述

结果：
在这里插入图片描述

（2）真实实验：

EPA’s Air Quality System (AQS) database美国各州空气质量数据库，预测空气质量。
在这里插入图片描述
当测试集和训练集分布分布差异小时，本文的方法结果较差。但当分布差异大时，本文的方法的结果更好。

4. 结论

变量去相关正则化器为每个样本估计一个权值，这样变量在加权训练数据上去相关。然后将这些权重用于加权回归，提高对各变量影响估计的准确性，从而提高了对未知试验数据进行预测的稳定性。
大量实验表明，在模型不确定和分布位移不可知的情况下，DWR算法能显著提高参数估计的准确性和预测的稳定性。

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
因果推断+机器学习：2020《Stable Prediction with Model Misspecification and Agnostic Distribution Shift∗》

Stable Prediction with Model Misspecification and Agnostic Distribution Shift稳定预测问题论文综述：具有模型错误说明和不可知分布移位的稳定预测作者： Kun Kuang1,2†, Ruoxuan Xiong3, Peng Cui2, Susan Athey3, Bo Li2目的：稳定预测机器学习假设训练集分布和测试集分布相同模型正确地描述，而实际上模型的预测的每个结果是有概率出错的。缺少：1.真实模型的先验知识
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。