2017 Uri Shalit & Fredrik D. Johansson：IHDP

最新推荐文章于 2024-08-05 14:31:47 发布

雾暗篷

最新推荐文章于 2024-08-05 14:31:47 发布

阅读量1.4k

点赞数

分类专栏：数据集文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_42847126/article/details/103548219

版权

数据集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2011年，Hill基于"婴儿健康与发展计划(IHDP)"制作了一个真实数据集，其目的是研究专家家访对婴儿未来认知测试分数的影响。原数据集是基于随机控制实验进行的，因此可以获得因果干预效应的groud truth。为了实现观察性研究数据的数据有偏特点，特意从原数据干预组中有偏向性地去除了一部分数据引入选择偏倚。该数据集共包含747个样本(干预组: 139; 控制组: 608), 共包含25个协变量涉及孩童和其母亲的各项属性。本文采用2016年Dorie在NPCI包中"A"设置的仿真结果。采用2011年Hill的IHDP数据集的无偏结果去计算真实干预效应。有限样本的 $P E H E$ 损失估计为： $\epsilon_{P E H E}(f)=\int_{\mathcal{X}}\left(\hat{\tau}_{f}(x)-\tau(x)\right)^{2} p(x) d x$ ；平均干预效应的绝对误差为： $\epsilon_{\mathrm{ATE}}=| \frac{1}{n} \sum_{i=1}^{n}\left(f\left(x_{i}, 1\right)-f\left(x_{i}, 0\right)\right)-\frac{1}{n} \sum_{i=1}^{n}\left(m_{1}\left(x_{i}\right)-\right.\left.m_{0}\left(x_{i}\right)\right)$ 。我们按照63/27/10的比例划分train/validation/test数据集，实现了1000次结果评估，并对其进行平均处理。

我们构建了IHDP数据集的有偏子样本，并以此来研究原始实验组之间数据不平衡的因果效应。并采用logistic回归倾向值模型估计条件干预概率： $\hat{p}(t=1 | x)$ 。然后，本文认为设置超参数概率值q，重复地使用概率q来移除剩下的样本中 $\hat{p}(t=1 | x)$ 最接近1的x；使用概率(1-q)来移除一个随机挑选的x。对于指定的q值，本文从数据集中删除347个观测值，剩下400个。q值越高，数据的不平衡程度越大。