2017 Uri Shalit & Fredrik D. Johansson:IHDP

  2011年,Hill基于"婴儿健康与发展计划(IHDP)"制作了一个真实数据集,其目的是研究专家家访对婴儿未来认知测试分数的影响。原数据集是基于随机控制实验进行的,因此可以获得因果干预效应的groud truth。为了实现观察性研究数据的数据有偏特点,特意从原数据干预组中有偏向性地去除了一部分数据引入选择偏倚。该数据集共包含747个样本(干预组: 139; 控制组: 608), 共包含25个协变量涉及孩童和其母亲的各项属性。本文采用2016年Dorie在NPCI包中"A"设置的仿真结果。采用2011年Hill的IHDP数据集的无偏结果去计算真实干预效应。有限样本的 P E H E PEHE PEHE损失估计为: ϵ P E H E ( f ) = ∫ X ( τ ^ f ( x ) − τ ( x ) ) 2 p ( x ) d x \epsilon_{P E H E}(f)=\int_{\mathcal{X}}\left(\hat{\tau}_{f}(x)-\tau(x)\right)^{2} p(x) d x ϵPEHE(f)=X(τ^f(x)τ(x))2p(x)dx;平均干预效应的绝对误差为: ϵ A T E = ∣ 1 n ∑ i = 1 n ( f ( x i , 1 ) − f ( x i , 0 ) ) − 1 n ∑ i = 1 n ( m 1 ( x i ) − m 0 ( x i ) ) \epsilon_{\mathrm{ATE}}=| \frac{1}{n} \sum_{i=1}^{n}\left(f\left(x_{i}, 1\right)-f\left(x_{i}, 0\right)\right)-\frac{1}{n} \sum_{i=1}^{n}\left(m_{1}\left(x_{i}\right)-\right.\left.m_{0}\left(x_{i}\right)\right) ϵATE=n1i=1n(f(xi,1)f(xi,0))n1i=1n(m1(xi)m0(xi))。我们按照63/27/10的比例划分train/validation/test数据集,实现了1000次结果评估,并对其进行平均处理。

  我们构建了IHDP数据集的有偏子样本,并以此来研究原始实验组之间数据不平衡的因果效应。并采用logistic回归倾向值模型估计条件干预概率: p ^ ( t = 1 ∣ x ) \hat{p}(t=1 | x) p^(t=1x)。然后,本文认为设置超参数概率值q,重复地使用概率q来移除剩下的样本中 p ^ ( t = 1 ∣ x ) \hat{p}(t=1 | x) p^(t=1x)最接近1的x;使用概率(1-q)来移除一个随机挑选的x。对于指定的q值,本文从数据集中删除347个观测值,剩下400个。q值越高,数据的不平衡程度越大。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值