翻译-CounterFactual Regression with Importance Sampling Weights

最新推荐文章于 2022-04-25 21:39:08 发布

雾暗篷

最新推荐文章于 2022-04-25 21:39:08 发布

阅读量702

点赞数 1

分类专栏：因果推断文章标签：因果推断表征学习 reweighting

本文链接：https://blog.csdn.net/weixin_42847126/article/details/103377180

版权

因果推断专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CounterFactual Regression with Importance Sampling Weights

来源
摘要
介绍
符号
相关工作
情境感知重要性权重
- 算法
实验
未来工作和总结
附录
- 超参数

来源

论文名称：CounterFactual Regression with Importance Sampling Weights
作者：Negar Hassanpour and Russell Greiner
链接：https://www.ijcai.org/proceedings/2019/0815.pdf

摘要

对于一个被诊断患有癌症的病人来说，在各种治疗方案下的预期寿命将是他最关心的。对于二元治疗方案，这将转化为估计两种可用治疗方案的效果(如未来寿命)之间的差异----即她的个体治疗效果(ITE)。这使得观察性数据研究极具挑战性，因为该数据具有选择偏差：分配到患者的治疗方案依赖于患者自身情况。在本文中，我们借用领域自适应的理念，期望解决因选择偏倚导致的源域(观察数据集中显示的给定治疗方案的效果)和目标域(另一种治疗方案的效果)之间的分配偏移。本文提出了一种基于表征学习模型的信息感知重要性抽样加权策略，用于准确估计ITEs。在两个公开基准数据集上的实验结果表明，本文提出的方法达到了目前最佳的性能。

介绍

为了保证每一步采取的行动都是合理的，智能体必须推断其每一步可能的行动选择的因果影响。一个经典的例子就是精准医疗——为每位患者量身定制医疗服务，它试图确定哪个医疗程序 $\in \mathcal{T}$ 对每一个病人 $x$ 最有利。【Rubin, 1974; Pearl, 2009】认为这种治疗模式的难点是反事实问题，例如：“如果患者接受了另一种治疗，她会活得更长吗？”. 这种反事实分析并不仅限于精准医疗；它可以应用在任何个体行动选择具有不同价值的领域中，包括智能辅导系统【Rollinson和Brunskill，2015】、新闻文章推荐系统【Li，2010】、广告投放系统【Bottou，2013】和网页搜索推荐系统【Li，2015】。

2009年，Pearl表示，一般来说，因果关系只能通过试验(在线探索)或随机对照试验(RCT)获得。在随机对照试验中，干预分配不依赖于个体 $X$ , 如图1(a)所示。然而，在现实情况中，很多时候随机试验不仅代价昂贵，而且是不道德的，甚至不可行的【Pearl，2009】。因此，我们不得不通过观察性研究在离线数据中求解近似的因果效应。但是，观察性数据经常会具有一定的选择偏倚【Imbens和Rubin，2015】， $\operatorname{Pr}(T | X) \neq \operatorname{Pr}(T)$ 。比如说，进行药物治疗 $T$ 取决单个 $X$ 的表现数学，如图1(b)所示。图2显示了合成观测数据集示例中的选择偏差。

在这里插入图片描述
图1：随机对照试验和观察性研究的置信网络框架。这里， $Y^{0}\left(Y^{1}\right)$ 是对 $X$ 所代表的个体应用 $T=\text { treatment\#0 (treatment\# } 1)$ 的结果。

图2：一个示例观测数据集。治疗心脏病，医生通常选择给年轻病人进行手术治疗（ $t = 1$ ，深蓝色•），给老年病人进行药物治疗（ $t = 0$ ，深红色+）。注意， $x$ 值越大(越小)的实例被分配到 $t = 0 (1)$ 治疗组的机会越大；此处即引入了选择偏倚( $t = 0 (1)$ 中的病人年龄分布不同)。反事实结果用浅蓝色•(浅粉色+)表示 —— 仅用于评估治疗差异， $\neg t=1(0)$ 。

在本文中，我们期望找到各种干预情况下各个个体 $i$ 的个体干预效果（ITE），即我们希望估计 $\mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0}$ 。为了做到这一点，我们希望构造表征学习框架获得函数 $\mathcal{X} \times \mathcal{T} \rightarrow \mathcal{Y}$ ，可以准确地预测观察结果 $\hat{y}_{i}^{t_{i}}=f\left(x_{i}, t_{i}\right)$ 以及反事实结果 $\hat{y}_{i}^{\neg t_{i}}=f\left(x_{i}, \neg t_{i}\right)$ ）。

在ITE估算中有两大挑战：
(i) 训练数据中没有任何个体的反事实结果 $y^{\neg t}$ ；这使得因果效应估计的问题比标准监督机器学习中的常规学习任务更加复杂难解。
(ii) 观测数据集中具有选择偏倚意味着，在特定范围内，某个干预组中的样本将会很少(手术组中老年人样本很少)。这种稀疏性会使得反事实结果估计的准确性和可信度大大降低。

挑战(i)是因果效应估计问题普遍存在的问题。本文专注于缓解问题(ii)的方法：

表征学习【Bengio et al., 2013】
表征学习，即习得一个表征空间 $\Phi(\cdot)$ 。期望在表征空间中，在不降低观察结果预测的准确性的前提下，使得选择偏倚尽可能地减小。换言之，假设 $X$ 是由图3所示的三个基本因子 ${A, B, C\}$ 生成的，理想情况下，期望能够完美识别出{A、B、C}因子，然后移除A。
赋权法
赋权法是处理协变量偏移和领域自适应问题的通用统计方法【Shimodaira，2000】。我们可以将观察性研究中的选择偏倚问题迁移到领域自适应场景中，我们希望从“源域”（观察）数据分布中学习一个模型，该模型在“目标域”（反事实）数据分布中表现良好。

在这里插入图片描述图3. $X$ 的潜在因素；A是T的部分决定因素；C是Y的部分决定因素；B是混淆因素（部分决定T和Y的因素）。选择偏差是由A和B引起的。

举例：（A）财富：富人更可能接受高价治疗，穷人更大概率接受低价治疗，尽管治疗方案可能并不完全依赖于患者的财富状况；（B）年龄：年轻患者通常接受手术治疗，老年患者通常接受药物治疗；（C）决定药物疗效的患者基因遗传信息，但是，这种信息主治医师不知道。

主要贡献：本文在表征学习模块的基础上，提出了一种基于重要性抽样技术的特征加权方法，期望缓解ITE估计中的选择偏倚问题。

本文分析全部基于以下两个假设：

无混杂假设
不存在未观测到的混杂因素（即，有助于干预选择和结果确定的所有协变量都已被观测到）。即 $\left\{Y^{t}\right\}_{t \in \mathcal{T}} \perp T | X$
重叠性
各个体 $x$ 被分配到各个实验组的概率都不为零。即 $\operatorname{Pr}(t | x) \neq 0 \quad \forall t \in \mathcal{T}, \forall x \in \mathcal{X}$

这两个假设合在一起被称为强忽略性假设【Rosenbaum和Rubin，1983】，强忽略性假设能够保证ITE能够被精准预测【Imbens和Wooldridge，2009】。

符号

$\mathcal{D}=\left\{\left[x_{i}, t_{i}, y_{i}\right]\right\}_{i=1}^{N}$ ：数据集
$i$ ：第 $i$ 个个体(即病人)
$x_{i} \in \mathcal{X} \subseteq \mathbb{R}^{K}$ ：样本特征(如病人身体特征, 如年龄, BMI, 血压等)
$t_{i}$ ：干预集 $T$ 中的干预方案（例如，0：用药，1：手术）
$y_{i} \in \mathcal{Y}$ ：给定干预方案 $t_{i}$ 的结果，（例如，未来寿命， $\mathcal{Y} \subseteq \mathbb{R}$ ）
对于二元干预情况，我们将反事实干预表示为 $\neg t_{i}=1-t_{i}$ 。

情境感知重要性权重

Context-aware Importance Weighting
$\begin{aligned} J(h, \Phi)=& \frac{1}{N} \sum_{i=1}^{N} \omega_{i} \cdot L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]+\lambda \cdot \mathfrak{R}(h) \\ &+\alpha \cdot \operatorname{IPM}\left(\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=0},\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=1}\right) \end{aligned}$

(1)

$\omega_{i}=\frac{t_{i}}{2 u}+\frac{1-t_{i}}{2(1-u)}$

(2)

在等式(1)中， $\Phi)$ 的第一项的目标是最小化结果预测loss函数的加权和，即标准的有监督机器学习任务目标，这一项我们可以重新写为：

$\begin{array}{l}{\frac{1}{N} \sum_{i=1}^{N} \omega_{i} \cdot L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]} \\ {\quad=\frac{1}{N} \sum_{t \in \mathcal{T}} N_{t} \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} \omega_{j} \cdot L\left[y_{j}, h^{t}\left(\Phi\left(x_{j}\right)\right)\right]} \\ {\quad=\sum_{t \in \mathcal{T}} \operatorname{Pr}(t) \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} \omega_{j} \cdot L\left[y_{j}, h^{t}\left(\Phi\left(x_{j}\right)\right)\right]}\end{array}$

(3)

其中， $N_{t}$ 是分配到各实验组 $\in\{0,1\}$ 的样本数。

等式(2)中，SJS的基本设置等价于 $\omega_{i}=\frac{1}{2 \operatorname{Pr}\left(t_{i}\right)}$ ，其中 $\operatorname{Pr}\left(t_{i}\right)$ 是观察到的整体样本中选择干预 $t_{i} \in\{0,1\}$ 的概率。这将等式(3)中的loss项降到了宏平均： $\frac{1}{2} \sum_{t \in \mathcal{T}} \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} L\left[y_{j}, h^{t_{j}}\left(\Phi\left(x_{j}\right)\right)\right]$ 。简单来说，就是不管样本大小是多少，不同的实验组对该目标项的贡献是相同的。这是合理的，因为在真实场景估计时，我们想估计所有可能的干预措施带来的结果。
在这里插入图片描述图3. $X$ 的潜在因素；A是T的部分决定因素；C是Y的部分决定因素；B是混淆因素（部分决定T和Y的因素）。选择偏差是由A和B引起的。

然而，由于混杂因素B的存在（见图3），这种权重不能够很好地解决 $\Phi(x)$ 中的剩余选择偏倚。本文受重要性抽样技术的启发，我们提出了情境感知权重，将包含各个样本 $\Phi(x)$ 中有价值的情境信息，从而进一步减轻估计ITEs时的选择偏倚。

分布差异项试图通过从Φ中消除因子A和B来平衡两种分布，而loss项则试图将B保持在Φ中。鉴于这种框架，我们认为Φ将会消除因子然后保持因子B和C。注意，Φ包含B是极重要的，因为它有助于准确预测结果(y)，并且对不可移除的选择偏倚进行正确建模也是极重要的。

统计学家一般通过重要性抽样计算 $\mathbb{E}_{x \sim p(x)}[f(x)]$ ，然而实际上，我们观察到的样本可能来自另一个分布 $q (x)$ ，这里， $p$ 和 $q$ 分别被称为“名义”和“重要”分布，容易证明 $\mathbb{E}_{x \sim p(x)}[f(x)]=\mathbb{E}_{x \sim q(x)}\left[f(x) \frac{p(x)}{q(x)}\right]$ 。在ITE估计的任务中，我们也有类似的问题。因此，我们首先需要得到生成数据的重要分布，然后反推有助于提高模型性能的名义分布。

再看等式(3)，我们提出的策略是学习各个实验组 $\in\{0,1\}$ 的独立回归函数 $h^{t}(\Phi(x))$ ，该函数将能够预测各个样本 $x$ 的对应干预 $t$ 的结果 $y$ 。通过设置 $\phi=\Phi(x)$ ，将权重 $w$ 从 $\Phi)$ 的参数中分离出来，我们就得到了以下的置信网： $\leftarrow x \rightarrow \phi \rightarrow\left\{y^{1}, y^{0}\right\}$ ， $L\left[y, h^{t}(\phi)\right]$ 的重要分布即为：

$\operatorname{Pr}(y, \phi | t)=\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | t)$

我们选择 $\operatorname{Pr}(y, \phi | \neg t)$ 作为名义分布，以强调那些对反事实结果的准确预测比较重要的样本。于是我们得到了 $\frac{\operatorname{Pr}(y, \phi | \neg t)}{\operatorname{Pr}(y, \phi | t)}=\frac{\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | \neg t)}{\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | t)}=\frac{\operatorname{Pr}(\phi | \neg t)}{\operatorname{Pr}(\phi | t)}$ 的似然比。为了确保我们的模型也能够很好地预测观察样本的结果（与 $t_{i}$ 相关），我们将 $\frac{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}=1$ 添加到上述似然比中，这样我们的目标函数也能解释事实损失。我们的权重项为：
$\omega_{i}=1+\frac{\operatorname{Pr}\left(\phi_{i} | \neg t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}$

(4)

注意这些权重项 $\omega_{i}$ 依赖于 $\phi_{i}$ , $\phi_{i}$ 的数值是从 $\Phi\left(x_{i}\right)$ 中导出的。即对这些权重的估计会在主优化路径（学习 $\Phi(\cdot)$ 和 $h^{t}(\cdot)$ 参数)中加入一个内嵌优化回路(学习 $\omega(\cdot)$ 参数)。这激励我们设计一种更有效的方法来学习权重。并且我们认为，直接学习权重是不可取的，因为：

它需要拟合两个密度概率函数： $\operatorname{Pr}(\phi | t)$ 和 $\operatorname{Pr}(\phi | \neg t)$ ，这两个函数会使模型所需的算力翻倍。
一些曾经有效的解决方案，如拟合简单的高维高斯函数，预计会产生不精确的密度概率函数。
一些更灵活的解决方案，如拟合高斯混合模型，具有较高的计算复杂度。

为了避免这些问题，我们使用贝叶斯定理间接地从 $\pi_{0}(t | \phi)$ 中学习 $\operatorname{Pr}(\phi | t)$ ，即在给定情境 $\phi$ 的情况下选择指定干预 $t$ 的概率，这可以通过拟合逻辑斯蒂克回归模型(LR)获得。因此，我们提出的权重函数的反事实部分可以简化如下：

$\begin{aligned} \frac{\operatorname{Pr}\left(\phi_{i} | \neg t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)} &=\frac{\frac{\pi_{0}\left(\neg t_{i} | \phi_{i}\right) \cdot \operatorname{Pr}\left(\phi_{i}\right)}{\operatorname{Pr}\left(\neg t_{i}\right)}}{\frac{\pi_{0}\left(t_{i} | \phi_{i}\right) \cdot \operatorname{Pr}\left(\phi_{i}\right)}{\operatorname{Pr}\left(t_{i}\right)}} \\=\frac{\operatorname{Pr}\left(t_{i}\right)}{\operatorname{Pr}\left(\neg t_{i}\right)} \cdot \frac{\pi_{0}\left(\neg t_{i} | \phi_{i}\right)}{\pi_{0}\left(t_{i} | \phi_{i}\right)} &=\frac{\operatorname{Pr}\left(t_{i}\right)}{1-\operatorname{Pr}\left(t_{i}\right)} \cdot \frac{1-\pi_{0}\left(t_{i} | \phi_{i}\right)}{\pi_{0}\left(t_{i} | \phi_{i}\right)} \end{aligned}$

(5)

其中， $\pi_{0}(t | \phi)$ 是参数为 $[W, b]$ 的LR函数：
$\pi_{0}(t | \phi)=\frac{1}{1+e^{-(2 t-1)(\phi \cdot W+b)}}$

并且优化参数 $[W, b]$ 的最小化loss函数为：
$b)=\frac{1}{N} \sum_{i=1}^{N}-\log \left[\pi_{0}\left(t_{i} | \phi_{i}\right)\right]$

(6)

因为 $\pi_{0}$ 依赖于 $\Phi$ ，我们用 $\Phi$ 和 $h$ 参数的每一个最新值更新 $[W, b]$ ，因此，这是具有两个目标的多目标优化问题，即等式(1)和(6) — 我们尝试进行交替求解。也就是说，每一步训练迭代包含两个步骤：

优化等式(1)
使用随机梯度下降法来更新表征网络和输出网络的参数—即 $U$ 和 $V$ ，来最小化等式(1)。注意，根据等式(4)和等式(5)计算得的事实损失项中的 $\omega_{i}$ ，在优化过程中保持参数 $[W, b]$ 不变。
优化等式(6)
更新倾向值得分函数 $\pi_{0}(t | \phi)$ 的参数—即参数 $[W, b]$ ，然后保持参数 $U$ 和 $V$ 不变。

算法1详细地描述了整个过程。注意，两个目标函数每次都是小批计算的。图5(b)即为我们的网络架构。

在这里插入图片描述

图5：模型框架对比。注意：本文方法相较SJS框架增加了倾向值网络。

算法

算法1 CFR-ISW：CounterFactual Regression with Importance Sampling Weights

输入：观测数据集 $\left\{\left[x_{1}, t_{1}, y_{1}\right], \ldots,\left[x_{N}, t_{N}, y_{N}\right]\right\}$ ，批大小为m，放缩参数为 $\alpha$ >0，正则化参数为 $π_0$ >0，损失函数 $L(\cdot, \cdot)$ ，带初始化权重 $[U]$ 的表征网络 $\Phi_{U}$ ，带初始化权重 $[V]$ 的结果网络 $h_{V}$ ，IPM函数族，带初始化权重 $[W, b]$ 的倾向值网络 $\pi$ ，总迭代次数限制 $I$
估计概率： $\operatorname{Pr}(t), t \in\{0,1\}$
for iter = 1 to $I$ do:
批采样 $\left\{i_{1}, i_{2}, \ldots, i_{m}\right\} \subset\{1,2, \ldots, N\}$
计算差异项的梯度： $g_{d}=\nabla_{U} \operatorname{IPM}\left(\left\{\Phi_{U}\left(x_{i_{j}}\right)\right\}_{t_{i_{j}}=0,}\left\{\Phi_{U}\left(x_{i_{j}}\right)\right\}_{t_{i_{j}}=1}\right)$
遵照等式(5)，由 $W$ 和 $\operatorname{Pr}(t)$ 计算本文提出的重要性抽样权重 $\omega_{i_{j}}$
计算经验损失的梯度：
$g_{U}=\nabla_{U} \frac{1}{m} \sum_{j} \omega_{i_{j}} \cdot L\left[h_{V}^{t_{i_{j}}}\left(\Phi_{U}\left(x_{i_{j}}\right)\right), y_{i_{j}}\right]$
$g_{V}=\nabla_{V} \frac{1}{m} \sum_{j} \omega_{i_{j}} \cdot L\left[h_{V}^{t_{i j}}\left(\Phi_{U}\left(x_{i_{j}}\right)\right), y_{i_{j}}\right]$
用标准神经网络梯度优化方法(Adam)获得更新步长或更新矩阵 $\eta_{1}$
更新表征网络和输出网络的权重： $\leftarrow\left[U-\eta_{1}\left(\alpha g_{d}+g_{U}\right), V-\eta_{1}\left(g_{V}+2 \lambda V\right)\right]$
计算倾向值网络cost函数的梯度：
$g_{W}=\nabla_{W} \frac{1}{m} \sum_{j} \log \left[1+e^{-\left(2 t_{i j}-1\right)\left(\Phi_{U}\left(x_{i j}\right) \cdot W+b\right)}\right]$
$g_{b}=\nabla_{b} \frac{1}{m} \sum_{j} \log \left[1+e^{-\left(2 t_{i j}-1\right)\left(\Phi_{U}\left(x_{i_{j}}\right) \cdot W+b\right)}\right]$
获得 $\eta_{2} \in \mathbb{R}^{+}$ (%移动距离)
更新倾向网络的权重：
$\leftarrow[W, b]-\eta_{2}\left[g_{W}, g_{b}\right]$
循环结束
输出： $[U, V]$

实验

如前所述，因果推理数据集的一个固有特征是反事实结果不可观测，这使得我们很难评估我们提出的算法的性能。文献中常见的解决方案是获取所有可能干预结果可用的数据集，然后，为了创建一个具有与真实世界相似特征（含选择偏倚）的适当观测数据集，人为舍弃一些样本——参见【Hassanpour 和 Greiner，2018】和【Beygelzimer 和 Langford，2009】。为了更直观比较各模型之间的性能，我们不进行设置合成数据集，而是采用两个公开的基准数据集进行测试。

评价准则

因果效应估计算法的性能度量有两类：基于个体的和基于总体的。在本文中，我们主要期望建立对个体因果效应估计的高性能模型，主要指标为：“异质效应估计的精度”(PEHE)【Hill，2011】和“效应标准化均方根误差”(ENoRMSE)【Shimoni，2018；Karavani，2018】：

$\begin{aligned} \operatorname{PEHE} &=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(\hat{e}_{i}-\mathrm{e}_{i}\right)^{2}} \\ \text { ENoRMSE } &=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(1-\frac{\hat{\mathrm{e}}_{i}}{\mathrm{e}_{i}}\right)^{2}} \end{aligned}$

其中， $\hat{\mathrm{e}}_{i}=\hat{y}_{i}^{1}-\hat{y}_{i}^{0}$ 是预测效应， $\mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0}$ 是真实效应。我们还考虑了总体的性能评估，即“平均干预效果(ATE)”的偏差： $\epsilon_{\mathrm{ATE}}=|\mathrm{ATE}-\widehat{\mathrm{ATE}}|$ , 其中 $\mathrm{ATE}=\frac{1}{N} \sum_{i=1}^{N} y_{i}^{1}-\frac{1}{N} \sum_{j=1}^{N} y_{j}^{0}$ ，式中 $y_{i}^{1}$ 和 $y_{j}^{0}$ 分别是干预组和控制组的真实结果，而 $\widehat{\mathrm{ATE}}$ 是基于估计结果计算的。

超参数选择

由于反事实结果不可观测，我们的算法不可能执行标准的内部交叉验证来选择设置超参数。因此，我们的学习者需要获取一些真实效应 $\mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0}$ 的估计值 $\tilde{\mathrm{e}}_{i}$ ，使其能够为其期望的性能度量计算提供一个代替值。SJS估计 $y\left(x_{i}, \neg t_{i}\right)$ 作为观测结果 $y_{j(i)}^{\neg t_{i}}$ 的代替，其中 $j (i)$ 是接受干预 $\neg t_{i}$ 的 $x_{i}$ 的最近邻（即，基于原始 $x$ 空间上定义的距离度量1-NN）。代替效果为 $\tilde{\mathrm{e}}_{1-\mathrm{NN}}=\left(2 t_{i}-1\right)\left(y_{i}^{t_{i}}-y_{j(i)}^{-t_{i}}\right)$ 。

然而，我们的实验结果表明，这种方法很难选择出较好的超参数。因为选择偏倚的存在，在另一实验组中的最近邻 $j (i)$ 可能不足以代表其反事实结果。因此，估计的替代效应可能不可靠，可能无法找到最佳的超参数集。

一个更好的解决方案是采用更强的反事实回归方法——如贝叶斯加性回归树(BART)【Chipman，2010】。但是一个有趣的结果是，我们实验结果表明CFR和CFR-ISW的性能比BART要好，与 $\tilde{e}_{1-\mathrm{NN}}$ 相比， $\tilde{\mathrm{e}}_{\mathrm{BART}}$ 识别出更好的超参数集(通过 $PEHE_{BART}$ 或 $ENoRMSE_{BART}$ )。

结果和讨论

在本文中，我们将我们提出的CFR-ISW与以下几种ITE估计方法进行了实验对比：

1-NN：一阶最近邻算法 — baseline
BART: 贝叶斯加性回归树方法【Chipman，2010】
CFR: 反事实回归法（即SJS）
RCFR: 加权反事实回归法【Johansson，2018】

接下来，我们将说明用于评估的两个基准数据集的特点，并且讨论了我们方法在这些数据集上的性能，并将其与其他几个算法进行了比较。

婴儿健康和发展计划(IHDP)

IHDP是一个二元干预数据集，旨在评估专家家访对早产儿未来认知测试分数的影响。2011年，Hill通过从原始RCT数据中移除实验群体中的非随机子集产生选择偏倚，创建了一个真实的观察数据集。结果数据集中包含747个样本（608个控制组，139个干预组），每个样本具有25个协变量，包括测量道德婴儿及其母亲的一些属性。
在这里插入图片描述

大西洋因果推理会议 2018 (ACIC’18)

在这里插入图片描述

未来工作和总结

目前，该方法只能应用于二值干预数据集。我们计划探索在有多种(分类)干预方法的情况下，甚至是连续实数干预选择时，促进反事实回归的方法，例如预测糖尿病患者服用胰岛素的正确剂量。

在本文中，我们提出了情境感知重要性抽样加权方案，其将有助于减轻选择偏倚对个体干预效果(ITEs)估计模型精度的负面影响。此外，我们还设置了一个超参数选择程序，它在寻优模型性能方面起着重要的作用。我们在反事实回归(CFR)框架【Shalit，2017】中引入了我们的方法，因此我们将其称之为具有重要抽样权重的反事实回归模型(CFR-ISW)。

我们使用1-NN(baseline)、贝叶斯加性回归树(BART)和最新方法，在两个公开的基准数据集上进行实验：(i)婴儿健康和发展计划(IHDP)和(ii)大西洋因果推断会议2018(ACIC’18)数据挑战赛，然后对比了CFR-ISW的评估结果。实验结果表明，在估计因果效应的三个常用性能指标上——非均匀效应估计精度(PEHE)、效应归一化均方根误差(ENoRMSE)，平均治疗效果的误差(ATE)，CFR-ISW显著 $(p<\alpha=0.05)$ 优于所有其他方法。

附录

超参数

我们采用梯度下降法训练优化了CFR-ISW的 $π_0$ 逻辑回归函数，学习率为1E-3。
对于CFR和CFR-ISW，我们采用 $\lambda=1 \mathrm{E}-3$ 作为正则化系数，采用elu作为非线性激活函数，采用Adam算法作为模型优化器，学习率设置为1E-3，最大迭代次数设置为3000步来训练 $\Phi$ 和 $h^{t}$ 网络。本文采用最大均值差异(MMD)作为我们的IPM来计算 $\operatorname{Pr}(\Phi | t=1)$ 和 $\operatorname{Pr}(\Phi | t=0)$ 两者分布之间的差异。有关本文超参数搜索空间的详细信息，请参见表3。

超参数	搜索范围
不平衡参数 $\alpha$	1E{-2, -1, 0, 1}
正则化系数 $\lambda$	1E-3
学习率	1E-3
批大小	{100, 300}
表征网络层数	{3, 5}
输出网络层数	{3, 5}
表征层节点数	{50, 100, 200}
输出层节点数	{50, 100, 200}
最大迭代次数	3000

表3 超参数及其搜索范围

雾暗篷

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
翻译-CounterFactual Regression with Importance Sampling Weights

对于一个被诊断患有癌症的病人来说，在各种治疗方案下的预期寿命将是他最关心的。对于二元治疗方案，这将转化为估计两种可用治疗方案的效果(如未来寿命)之间的差异----即她的个体治疗效果(ITE)。这使得观察性数据研究极具挑战性，因为该数据具有选择偏差：分配到患者的治疗方案依赖于患者自身情况。在本文中，我们借用领域自适应的理念，期望解决因选择偏倚导致的源域(观察数据集中显示的给定治疗方案的效果)和目标域(另一种治疗方案的效果)之间的分配偏移。本文提出了一种基于表征学习模型的信息感知重要性抽样加权策略，用于准确估计
复制链接

扫一扫