CounterFactual Regression with Importance Sampling Weights
来源
论文名称:CounterFactual Regression with Importance Sampling Weights
作者:Negar Hassanpour and Russell Greiner
链接:https://www.ijcai.org/proceedings/2019/0815.pdf
摘要
对于一个被诊断患有癌症的病人来说,在各种治疗方案下的预期寿命将是他最关心的。对于二元治疗方案,这将转化为估计两种可用治疗方案的效果(如未来寿命)之间的差异----即她的个体治疗效果(ITE)。这使得观察性数据研究极具挑战性,因为该数据具有选择偏差:分配到患者的治疗方案依赖于患者自身情况。在本文中,我们借用领域自适应的理念,期望解决因选择偏倚导致的源域(观察数据集中显示的给定治疗方案的效果)和目标域(另一种治疗方案的效果)之间的分配偏移。本文提出了一种基于表征学习模型的信息感知重要性抽样加权策略,用于准确估计ITEs。在两个公开基准数据集上的实验结果表明,本文提出的方法达到了目前最佳的性能。
介绍
为了保证每一步采取的行动都是合理的,智能体必须推断其每一步可能的行动选择的因果影响。一个经典的例子就是精准医疗——为每位患者量身定制医疗服务,它试图确定哪个医疗程序 t ∈ T t \in \mathcal{T} t∈T 对每一个病人 x x x 最有利。【Rubin, 1974; Pearl, 2009】认为这种治疗模式的难点是反事实问题,例如:“如果患者接受了另一种治疗,她会活得更长吗?”. 这种反事实分析并不仅限于精准医疗;它可以应用在任何个体行动选择具有不同价值的领域中,包括智能辅导系统【Rollinson和Brunskill,2015】、新闻文章推荐系统【Li,2010】、广告投放系统【Bottou,2013】和网页搜索推荐系统【Li,2015】。
2009年,Pearl表示,一般来说,因果关系只能通过试验(在线探索)或随机对照试验(RCT)获得。在随机对照试验中,干预分配不依赖于个体 X X X, 如图1(a)所示。然而,在现实情况中,很多时候随机试验不仅代价昂贵,而且是不道德的,甚至不可行的【Pearl,2009】。因此,我们不得不通过观察性研究在离线数据中求解近似的因果效应。但是,观察性数据经常会具有一定的选择偏倚【Imbens和Rubin,2015】, Pr ( T ∣ X ) ≠ Pr ( T ) \operatorname{Pr}(T | X) \neq \operatorname{Pr}(T) Pr(T∣X)=Pr(T)。比如说,进行药物治疗 T T T 取决单个 X X X 的表现数学,如图1(b)所示。图2显示了合成观测数据集示例中的选择偏差。
图1:随机对照试验和观察性研究的置信网络框架。这里,
Y
0
(
Y
1
)
Y^{0}\left(Y^{1}\right)
Y0(Y1)是对
X
X
X 所代表的个体应用
T
=
treatment#0 (treatment#
1
)
T=\text { treatment\#0 (treatment\# } 1)
T= treatment#0 (treatment# 1)的结果。
图2:一个示例观测数据集。治疗心脏病,医生通常选择给年轻病人进行手术治疗(
t
=
1
t=1
t=1,深蓝色•),给老年病人进行药物治疗(
t
=
0
t=0
t=0,深红色+)。注意,
x
x
x值越大(越小)的实例被分配到
t
=
0
(
1
)
t=0(1)
t=0(1)治疗组的机会越大;此处即引入了选择偏倚(
t
=
0
(
1
)
t=0(1)
t=0(1)中的病人年龄分布不同)。反事实结果用浅蓝色•(浅粉色+)表示 —— 仅用于评估治疗差异,
¬
t
=
1
(
0
)
\neg t=1(0)
¬t=1(0)。
在本文中,我们期望找到各种干预情况下各个个体 i i i 的个体干预效果(ITE),即我们希望估计 e i = y i 1 − y i 0 \mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0} ei=yi1−yi0。为了做到这一点,我们希望构造表征学习框架获得函数 f : X × T → Y f: \mathcal{X} \times \mathcal{T} \rightarrow \mathcal{Y} f:X×T→Y,可以准确地预测观察结果 y ^ i t i = f ( x i , t i ) \hat{y}_{i}^{t_{i}}=f\left(x_{i}, t_{i}\right) y^iti=f(xi,ti)以及反事实结果 y ^ i ¬ t i = f ( x i , ¬ t i ) \hat{y}_{i}^{\neg t_{i}}=f\left(x_{i}, \neg t_{i}\right) y^i¬ti=f(xi,¬ti))。
在ITE估算中有两大挑战:
(i) 训练数据中没有任何个体的反事实结果
y
¬
t
y^{\neg t}
y¬t;这使得因果效应估计的问题比标准监督机器学习中的常规学习任务更加复杂难解。
(ii) 观测数据集中具有选择偏倚意味着,在特定范围内,某个干预组中的样本将会很少(手术组中老年人样本很少)。这种稀疏性会使得反事实结果估计的准确性和可信度大大降低。
挑战(i)是因果效应估计问题普遍存在的问题。本文专注于缓解问题(ii)的方法:
- 表征学习 【Bengio et al., 2013】
表征学习,即习得一个表征空间 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅)。期望在表征空间中,在不降低观察结果预测的准确性的前提下,使得选择偏倚尽可能地减小。换言之,假设 X X X 是由图3所示的三个基本因子 { A , B , C } \{A, B, C\} {A,B,C}生成的,理想情况下,期望能够完美识别出{A、B、C}因子,然后移除A。 - 赋权法
赋权法是处理协变量偏移和领域自适应问题的通用统计方法【Shimodaira,2000】。我们可以将观察性研究中的选择偏倚问题迁移到领域自适应场景中,我们希望从“源域”(观察)数据分布中学习一个模型,该模型在“目标域”(反事实)数据分布中表现良好。
图3.
X
X
X的潜在因素;A是T的部分决定因素;C是Y的部分决定因素;B是混淆因素(部分决定T和Y的因素)。选择偏差是由A和B引起的。
举例:(A)财富:富人更可能接受高价治疗,穷人更大概率接受低价治疗,尽管治疗方案可能并不完全依赖于患者的财富状况;(B)年龄:年轻患者通常接受手术治疗,老年患者通常接受药物治疗;(C)决定药物疗效的患者基因遗传信息,但是,这种信息主治医师不知道。
主要贡献:本文在表征学习模块的基础上,提出了一种基于重要性抽样技术的特征加权方法,期望缓解ITE估计中的选择偏倚问题。
本文分析全部基于以下两个假设:
- 无混杂假设
不存在未观测到的混杂因素(即,有助于干预选择和结果确定的所有协变量都已被观测到)。即 { Y t } t ∈ T ⊥ T ∣ X \left\{Y^{t}\right\}_{t \in \mathcal{T}} \perp T | X {Yt}t∈T⊥T∣X - 重叠性
各个体 x x x 被分配到各个实验组的概率都不为零。即 Pr ( t ∣ x ) ≠ 0 ∀ t ∈ T , ∀ x ∈ X \operatorname{Pr}(t | x) \neq 0 \quad \forall t \in \mathcal{T}, \forall x \in \mathcal{X} Pr(t∣x)=0∀t∈T,∀x∈X
这两个假设合在一起被称为强忽略性假设【Rosenbaum和Rubin,1983】,强忽略性假设能够保证ITE能够被精准预测【Imbens和Wooldridge,2009】。
符号
D
=
{
[
x
i
,
t
i
,
y
i
]
}
i
=
1
N
\mathcal{D}=\left\{\left[x_{i}, t_{i}, y_{i}\right]\right\}_{i=1}^{N}
D={[xi,ti,yi]}i=1N:数据集
i
i
i :第
i
i
i 个个体(即病人)
x
i
∈
X
⊆
R
K
x_{i} \in \mathcal{X} \subseteq \mathbb{R}^{K}
xi∈X⊆RK:样本特征(如病人身体特征, 如年龄, BMI, 血压等)
t
i
t_{i}
ti:干预集
T
T
T 中的干预方案(例如,0:用药,1:手术)
y
i
∈
Y
y_{i} \in \mathcal{Y}
yi∈Y:给定干预方案
t
i
t_{i}
ti 的结果,(例如,未来寿命,
Y
⊆
R
\mathcal{Y} \subseteq \mathbb{R}
Y⊆R)
对于二元干预情况,我们将反事实干预表示为
¬
t
i
=
1
−
t
i
\neg t_{i}=1-t_{i}
¬ti=1−ti。
相关工作
从观察性研究中学习干预效果与“情境赌博机的异步策略学习(off-policy learning in contextual bandits)”密切相关——参见【Strehl,2010;Swaminathan和Joachims,2015】,其中,目标是学习一个为每个个体选择最佳干预方案的最优策略 π ( t ∣ x ) \pi(t | x) π(t∣x)。
解决该问题的一个策略是“预测精准结果”,即对每个
x
x
x估计
y
(
x
,
t
)
∀
t
∈
T
y(x, t) \forall t \in \mathcal{T}
y(x,t)∀t∈T,然后选择那个能够获得最佳结果的策略
π
(
t
∣
x
)
=
argmax
t
y
(
x
,
t
)
\pi(t | x)=\underset{t}{\operatorname{argmax}} y(x, t)
π(t∣x)=targmaxy(x,t)。这在因果推断中即相当于做ITE估计。
另一种策略是绕过结果预测步骤,通过最大化效用函数(类似于强化学习中的“预期收益”【Sutton 和 Barto,1998】)直接获得最优策略。第二种策略下的大多数方法属于逆倾向加权方法(IPS),IPS方法试图通过为数据样本重新加权来平衡"源"和"目标"分布【Austin,2011;Swaminathan和Joachims,2015】。
contextual bandit: 上下文赌博机/情境赌博机
on-policy 和 off-policy:指导个体与情境进行实际交互行为的策略称为行为策略,把用来评价状态或行为价值的策略或者待优化的策略称为目标策略。如果个体在学习过程中优化的策略与自己的行为策略是同一个策略时,这种学习方式称为同步策略学习(on-policy learning),如果个体在学习过程中优化的策略与自己的行为策略是不同的策略时,这种学习方式称为异步策略学习(off-policy learning)
off-policy learning in contextual bandits:情境赌博机的异步策略学习
2018年,Atan等人使用自编码网络学习表征空间 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅),该表征空间通过最小化 Pr ( t ) \operatorname{Pr}(t) Pr(t)和 Pr ( t ∣ Φ ( x ) ) \operatorname{Pr}(t | \Phi(x)) Pr(t∣Φ(x))之间的交叉熵loss来减少选择偏倚。通过训练自动编码器,他们迫使网络能够从 Φ \Phi Φ表征 x x x中的所有协变量。当 x x x中的某特征影响干预T的选择,并对结果没有影响时,这可能会与表征学习的目标冲突,导致结果下降。
2017年,Shalit等人,即’SJS’方法,试图通过学习一个共同表征空间
Φ
(
⋅
)
\Phi(\cdot)
Φ(⋅),使
Pr
(
x
∣
t
=
0
)
\operatorname{Pr}(x | t=0)
Pr(x∣t=0) 和
Pr
(
x
∣
t
=
1
)
\operatorname{Pr}(x | t=1)
Pr(x∣t=1)尽可能接近来减少选择偏倚(见图4)。假设
Φ
(
⋅
)
\Phi(\cdot)
Φ(⋅)中保留了充分的信息,使得所有
∣
T
∣
|T|
∣T∣个学习到的回归方程
h
t
(
Φ
)
h^{t}(\Phi)
ht(Φ)都能很好地预测观测结果和反事实结果。
Φ
\Phi
Φ 和
h
t
h^{t}
ht是神经网络,通过最小化loss函数进行训练学习,loss如下:
J
(
h
,
Φ
)
=
1
N
∑
i
=
1
N
ω
i
⋅
L
[
y
i
,
h
t
i
(
Φ
(
x
i
)
)
]
+
λ
⋅
R
(
h
)
+
α
⋅
IPM
(
{
Φ
(
x
i
)
}
i
:
t
i
=
0
,
{
Φ
(
x
i
)
}
i
:
t
i
=
1
)
\begin{aligned} J(h, \Phi)=& \frac{1}{N} \sum_{i=1}^{N} \omega_{i} \cdot L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]+\lambda \cdot \mathfrak{R}(h) \\ &+\alpha \cdot \operatorname{IPM}\left(\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=0},\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=1}\right) \end{aligned}
J(h,Φ)=N1i=1∑Nωi⋅L[yi,hti(Φ(xi))]+λ⋅R(h)+α⋅IPM({Φ(xi)}i:ti=0,{Φ(xi)}i:ti=1)
其中,
L
[
y
i
,
h
t
i
(
Φ
(
x
i
)
)
]
L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]
L[yi,hti(Φ(xi))]是对样本
i
i
i的预测结果的loss函数,权重
ω
i
\omega_{i}
ωi的公式如下:
ω
i
=
t
i
2
u
+
1
−
t
i
2
(
1
−
u
)
\omega_{i}=\frac{t_{i}}{2 u}+\frac{1-t_{i}}{2(1-u)}
ωi=2uti+2(1−u)1−ti
其中,
u
=
1
N
∑
i
=
1
N
t
i
=
Pr
(
t
=
1
)
u=\frac{1}{N} \sum_{i=1}^{N} t_{i}=\operatorname{Pr}(t=1)
u=N1∑i=1Nti=Pr(t=1)。并且,等式(1)中的
R
(
h
)
\mathfrak{R}(h)
R(h)是约束模型复杂度的正则项;等式(1)中的最后一项
disc
=
IPM
(
{
Φ
(
x
i
)
}
i
:
t
i
=
0
,
{
Φ
(
x
i
)
}
i
:
t
i
=
1
)
\operatorname{disc}=\operatorname{IPM}\left(\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=0},\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=1}\right)
disc=IPM({Φ(xi)}i:ti=0,{Φ(xi)}i:ti=1)是
Pr
(
Φ
(
x
)
∣
t
=
0
)
\operatorname{Pr}(\Phi(x) | t=0)
Pr(Φ(x)∣t=0) 和
Pr
(
Φ
(
x
)
∣
t
=
1
)
\operatorname{Pr}(\Phi(x) | t=1)
Pr(Φ(x)∣t=1)两者之间的分布差异——积分概率度量计算(IPM)。SJS的模型结构见图5(a)。
图4:表征学习减少了选择偏倚。也就是说,转换后的
Φ
(
x
)
\Phi(x)
Φ(x)的
t
=
1
t=1
t=1 和
t
=
0
t=0
t=0的分布与原始
x
x
x空间中的分布相比,它们彼此更接近 —— 这里,红色+与蓝色•的分布在
Φ
(
x
)
\Phi(x)
Φ(x)空间中的分布相较原始
x
x
x空间中相对于x轴的分布更接近彼此。并且,变换后样本的结果分布(Y轴)基本保持不变。
SJS模型与其前身【Johansson,2016】十分相似,SJS模型只是定义了 Φ \Phi Φ 和 t t t(事实)与 Φ \Phi Φ 和 ¬ t \neg t ¬t(反事实)的联合分布之间的差异度量,即 disc = IPM ( { [ Φ ( x i ) , t i ] } i = 1 N , { [ Φ ( x i ) , ¬ t i ] } i = 1 N ) \operatorname{disc}=\operatorname{IPM}\left(\left\{\left[\Phi\left(x_{i}\right), t_{i}\right]\right\}_{i=1}^{N},\left\{\left[\Phi\left(x_{i}\right), \neg t_{i}\right]\right\}_{i=1}^{N}\right) disc=IPM({[Φ(xi),ti]}i=1N,{[Φ(xi),¬ti]}i=1N)。这使得模型具有理论依据:如果基于T条件下,事实和反事实结果的联合分布很难区分,这意味着数据接近随机对照实验(RCT)。然而,由于这两种联合分布只在其干预位上不同(即 t t t 与 ¬ t \neg t ¬t不同,相对于两者 Φ ( x ) \Phi(x) Φ(x)分布一致),因此两者分布差异应该较小,即它对目标函数的影响基本上可以忽略。此外,高维的 Φ ( x ) \Phi(x) Φ(x)可以更加地掩盖干预 t t t 中的信息,从而产生的分布差异更小。
与本文模型最接近的应该是【Johansson,2018】的模型,【Johansson,2018】也在表征学习的基础上进行了样本重新加权,并通过最小化事实联合分布 p μ ( ϕ , t ) p_{\mu}(\phi, t) pμ(ϕ,t)和权重为 ( ω ) (\omega) (ω)的反事实分布 ω ⋅ p π ( ϕ , ¬ t ) \omega \cdot p_{\pi}(\phi, \neg t) ω⋅pπ(ϕ,¬t)之间的差异来平衡源域和目标域,其中 ϕ \phi ϕ为 Φ ( x ) \Phi(x) Φ(x)的数值。因此,该方法也易受上述较小分布差异这一相同问题的影响。
情境感知重要性权重
Context-aware Importance Weighting
J
(
h
,
Φ
)
=
1
N
∑
i
=
1
N
ω
i
⋅
L
[
y
i
,
h
t
i
(
Φ
(
x
i
)
)
]
+
λ
⋅
R
(
h
)
+
α
⋅
IPM
(
{
Φ
(
x
i
)
}
i
:
t
i
=
0
,
{
Φ
(
x
i
)
}
i
:
t
i
=
1
)
\begin{aligned} J(h, \Phi)=& \frac{1}{N} \sum_{i=1}^{N} \omega_{i} \cdot L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]+\lambda \cdot \mathfrak{R}(h) \\ &+\alpha \cdot \operatorname{IPM}\left(\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=0},\left\{\Phi\left(x_{i}\right)\right\}_{i: t_{i}=1}\right) \end{aligned}
J(h,Φ)=N1i=1∑Nωi⋅L[yi,hti(Φ(xi))]+λ⋅R(h)+α⋅IPM({Φ(xi)}i:ti=0,{Φ(xi)}i:ti=1)
ω i = t i 2 u + 1 − t i 2 ( 1 − u ) \omega_{i}=\frac{t_{i}}{2 u}+\frac{1-t_{i}}{2(1-u)} ωi=2uti+2(1−u)1−ti
在等式(1)中, J ( h , Φ ) J(h, \Phi) J(h,Φ)的第一项的目标是最小化结果预测loss函数的加权和,即标准的有监督机器学习任务目标,这一项我们可以重新写为:
1 N ∑ i = 1 N ω i ⋅ L [ y i , h t i ( Φ ( x i ) ) ] = 1 N ∑ t ∈ T N t 1 N t ∑ j = 1 N t ω j ⋅ L [ y j , h t ( Φ ( x j ) ) ] = ∑ t ∈ T Pr ( t ) 1 N t ∑ j = 1 N t ω j ⋅ L [ y j , h t ( Φ ( x j ) ) ] \begin{array}{l}{\frac{1}{N} \sum_{i=1}^{N} \omega_{i} \cdot L\left[y_{i}, h^{t_{i}}\left(\Phi\left(x_{i}\right)\right)\right]} \\ {\quad=\frac{1}{N} \sum_{t \in \mathcal{T}} N_{t} \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} \omega_{j} \cdot L\left[y_{j}, h^{t}\left(\Phi\left(x_{j}\right)\right)\right]} \\ {\quad=\sum_{t \in \mathcal{T}} \operatorname{Pr}(t) \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} \omega_{j} \cdot L\left[y_{j}, h^{t}\left(\Phi\left(x_{j}\right)\right)\right]}\end{array} N1∑i=1Nωi⋅L[yi,hti(Φ(xi))]=N1∑t∈TNtNt1∑j=1Ntωj⋅L[yj,ht(Φ(xj))]=∑t∈TPr(t)Nt1∑j=1Ntωj⋅L[yj,ht(Φ(xj))]
其中, N t N_{t} Nt 是分配到各实验组 t ∈ { 0 , 1 } t \in\{0,1\} t∈{0,1} 的样本数。
等式(2)中,SJS的基本设置等价于
ω
i
=
1
2
Pr
(
t
i
)
\omega_{i}=\frac{1}{2 \operatorname{Pr}\left(t_{i}\right)}
ωi=2Pr(ti)1,其中
Pr
(
t
i
)
\operatorname{Pr}\left(t_{i}\right)
Pr(ti)是观察到的整体样本中选择干预
t
i
∈
{
0
,
1
}
t_{i} \in\{0,1\}
ti∈{0,1}的概率。这将等式(3)中的loss项降到了宏平均:
1
2
∑
t
∈
T
1
N
t
∑
j
=
1
N
t
L
[
y
j
,
h
t
j
(
Φ
(
x
j
)
)
]
\frac{1}{2} \sum_{t \in \mathcal{T}} \frac{1}{N_{t}} \sum_{j=1}^{N_{t}} L\left[y_{j}, h^{t_{j}}\left(\Phi\left(x_{j}\right)\right)\right]
21∑t∈TNt1∑j=1NtL[yj,htj(Φ(xj))]。简单来说,就是不管样本大小是多少,不同的实验组对该目标项的贡献是相同的。这是合理的,因为在真实场景估计时,我们想估计所有可能的干预措施带来的结果。
图3.
X
X
X的潜在因素;A是T的部分决定因素;C是Y的部分决定因素;B是混淆因素(部分决定T和Y的因素)。选择偏差是由A和B引起的。
然而,由于混杂因素B的存在(见图3),这种权重不能够很好地解决 Φ ( x ) \Phi(x) Φ(x)中的剩余选择偏倚。本文受重要性抽样技术的启发,我们提出了情境感知权重,将包含各个样本 Φ ( x ) \Phi(x) Φ(x)中有价值的情境信息,从而进一步减轻估计ITEs时的选择偏倚。
分布差异项试图通过从Φ中消除因子A和B来平衡两种分布,而loss项则试图将B保持在Φ中。鉴于这种框架,我们认为Φ将会消除因子然后保持因子B和C。注意,Φ包含B是极重要的,因为它有助于准确预测结果(y),并且对不可移除的选择偏倚进行正确建模也是极重要的。
统计学家一般通过重要性抽样计算 E x ∼ p ( x ) [ f ( x ) ] \mathbb{E}_{x \sim p(x)}[f(x)] Ex∼p(x)[f(x)],然而实际上,我们观察到的样本可能来自另一个分布 q ( x ) q(x) q(x),这里, p p p 和 q q q 分别被称为“名义”和“重要”分布,容易证明 E x ∼ p ( x ) [ f ( x ) ] = E x ∼ q ( x ) [ f ( x ) p ( x ) q ( x ) ] \mathbb{E}_{x \sim p(x)}[f(x)]=\mathbb{E}_{x \sim q(x)}\left[f(x) \frac{p(x)}{q(x)}\right] Ex∼p(x)[f(x)]=Ex∼q(x)[f(x)q(x)p(x)]。在ITE估计的任务中,我们也有类似的问题。因此,我们首先需要得到生成数据的重要分布,然后反推有助于提高模型性能的名义分布。
再看等式(3),我们提出的策略是学习各个实验组 t ∈ { 0 , 1 } t \in\{0,1\} t∈{0,1}的独立回归函数 h t ( Φ ( x ) ) h^{t}(\Phi(x)) ht(Φ(x)),该函数将能够预测各个样本 x x x 的对应干预 t t t 的结果 y y y。通过设置 ϕ = Φ ( x ) \phi=\Phi(x) ϕ=Φ(x),将权重 w w w 从 J ( h , Φ ) J(h, \Phi) J(h,Φ)的参数中分离出来,我们就得到了以下的置信网: t ← x → ϕ → { y 1 , y 0 } t \leftarrow x \rightarrow \phi \rightarrow\left\{y^{1}, y^{0}\right\} t←x→ϕ→{y1,y0}, L [ y , h t ( ϕ ) ] L\left[y, h^{t}(\phi)\right] L[y,ht(ϕ)]的重要分布即为:
Pr ( y , ϕ ∣ t ) = Pr ( y ∣ ϕ ) ⋅ Pr ( ϕ ∣ t ) \operatorname{Pr}(y, \phi | t)=\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | t) Pr(y,ϕ∣t)=Pr(y∣ϕ)⋅Pr(ϕ∣t)
我们选择
Pr
(
y
,
ϕ
∣
¬
t
)
\operatorname{Pr}(y, \phi | \neg t)
Pr(y,ϕ∣¬t)作为名义分布,以强调那些对反事实结果的准确预测比较重要的样本。于是我们得到了
Pr
(
y
,
ϕ
∣
¬
t
)
Pr
(
y
,
ϕ
∣
t
)
=
Pr
(
y
∣
ϕ
)
⋅
Pr
(
ϕ
∣
¬
t
)
Pr
(
y
∣
ϕ
)
⋅
Pr
(
ϕ
∣
t
)
=
Pr
(
ϕ
∣
¬
t
)
Pr
(
ϕ
∣
t
)
\frac{\operatorname{Pr}(y, \phi | \neg t)}{\operatorname{Pr}(y, \phi | t)}=\frac{\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | \neg t)}{\operatorname{Pr}(y | \phi) \cdot \operatorname{Pr}(\phi | t)}=\frac{\operatorname{Pr}(\phi | \neg t)}{\operatorname{Pr}(\phi | t)}
Pr(y,ϕ∣t)Pr(y,ϕ∣¬t)=Pr(y∣ϕ)⋅Pr(ϕ∣t)Pr(y∣ϕ)⋅Pr(ϕ∣¬t)=Pr(ϕ∣t)Pr(ϕ∣¬t)的似然比。为了确保我们的模型也能够很好地预测观察样本的结果(与
t
i
t_{i}
ti相关),我们将
Pr
(
ϕ
i
∣
t
i
)
Pr
(
ϕ
i
∣
t
i
)
=
1
\frac{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}=1
Pr(ϕi∣ti)Pr(ϕi∣ti)=1添加到上述似然比中,这样我们的目标函数也能解释事实损失。我们的权重项为:
ω
i
=
1
+
Pr
(
ϕ
i
∣
¬
t
i
)
Pr
(
ϕ
i
∣
t
i
)
\omega_{i}=1+\frac{\operatorname{Pr}\left(\phi_{i} | \neg t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)}
ωi=1+Pr(ϕi∣ti)Pr(ϕi∣¬ti)
注意这些权重项 ω i \omega_{i} ωi依赖于 ϕ i \phi_{i} ϕi, ϕ i \phi_{i} ϕi的数值是从 Φ ( x i ) \Phi\left(x_{i}\right) Φ(xi)中导出的。即对这些权重的估计会在主优化路径(学习 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅) 和 h t ( ⋅ ) h^{t}(\cdot) ht(⋅)参数)中加入一个内嵌优化回路(学习 ω ( ⋅ ) \omega(\cdot) ω(⋅)参数)。这激励我们设计一种更有效的方法来学习权重。并且我们认为,直接学习权重是不可取的,因为:
- 它需要拟合两个密度概率函数: Pr ( ϕ ∣ t ) \operatorname{Pr}(\phi | t) Pr(ϕ∣t)和 Pr ( ϕ ∣ ¬ t ) \operatorname{Pr}(\phi | \neg t) Pr(ϕ∣¬t),这两个函数会使模型所需的算力翻倍。
- 一些曾经有效的解决方案,如拟合简单的高维高斯函数,预计会产生不精确的密度概率函数。
- 一些更灵活的解决方案,如拟合高斯混合模型,具有较高的计算复杂度。
为了避免这些问题,我们使用贝叶斯定理间接地从 π 0 ( t ∣ ϕ ) \pi_{0}(t | \phi) π0(t∣ϕ) 中学习 Pr ( ϕ ∣ t ) \operatorname{Pr}(\phi | t) Pr(ϕ∣t),即在给定情境 ϕ \phi ϕ的情况下选择指定干预 t t t 的概率,这可以通过拟合逻辑斯蒂克回归模型(LR)获得。因此,我们提出的权重函数的反事实部分可以简化如下:
Pr ( ϕ i ∣ ¬ t i ) Pr ( ϕ i ∣ t i ) = π 0 ( ¬ t i ∣ ϕ i ) ⋅ Pr ( ϕ i ) Pr ( ¬ t i ) π 0 ( t i ∣ ϕ i ) ⋅ Pr ( ϕ i ) Pr ( t i ) = Pr ( t i ) Pr ( ¬ t i ) ⋅ π 0 ( ¬ t i ∣ ϕ i ) π 0 ( t i ∣ ϕ i ) = Pr ( t i ) 1 − Pr ( t i ) ⋅ 1 − π 0 ( t i ∣ ϕ i ) π 0 ( t i ∣ ϕ i ) \begin{aligned} \frac{\operatorname{Pr}\left(\phi_{i} | \neg t_{i}\right)}{\operatorname{Pr}\left(\phi_{i} | t_{i}\right)} &=\frac{\frac{\pi_{0}\left(\neg t_{i} | \phi_{i}\right) \cdot \operatorname{Pr}\left(\phi_{i}\right)}{\operatorname{Pr}\left(\neg t_{i}\right)}}{\frac{\pi_{0}\left(t_{i} | \phi_{i}\right) \cdot \operatorname{Pr}\left(\phi_{i}\right)}{\operatorname{Pr}\left(t_{i}\right)}} \\=\frac{\operatorname{Pr}\left(t_{i}\right)}{\operatorname{Pr}\left(\neg t_{i}\right)} \cdot \frac{\pi_{0}\left(\neg t_{i} | \phi_{i}\right)}{\pi_{0}\left(t_{i} | \phi_{i}\right)} &=\frac{\operatorname{Pr}\left(t_{i}\right)}{1-\operatorname{Pr}\left(t_{i}\right)} \cdot \frac{1-\pi_{0}\left(t_{i} | \phi_{i}\right)}{\pi_{0}\left(t_{i} | \phi_{i}\right)} \end{aligned} Pr(ϕi∣ti)Pr(ϕi∣¬ti)=Pr(¬ti)Pr(ti)⋅π0(ti∣ϕi)π0(¬ti∣ϕi)=Pr(ti)π0(ti∣ϕi)⋅Pr(ϕi)Pr(¬ti)π0(¬ti∣ϕi)⋅Pr(ϕi)=1−Pr(ti)Pr(ti)⋅π0(ti∣ϕi)1−π0(ti∣ϕi)
其中,
π
0
(
t
∣
ϕ
)
\pi_{0}(t | \phi)
π0(t∣ϕ)是参数为
[
W
,
b
]
[W, b]
[W,b]的LR函数:
π
0
(
t
∣
ϕ
)
=
1
1
+
e
−
(
2
t
−
1
)
(
ϕ
⋅
W
+
b
)
\pi_{0}(t | \phi)=\frac{1}{1+e^{-(2 t-1)(\phi \cdot W+b)}}
π0(t∣ϕ)=1+e−(2t−1)(ϕ⋅W+b)1
并且优化参数
[
W
,
b
]
[W, b]
[W,b]的最小化loss函数为:
C
(
W
,
b
)
=
1
N
∑
i
=
1
N
−
log
[
π
0
(
t
i
∣
ϕ
i
)
]
C(W, b)=\frac{1}{N} \sum_{i=1}^{N}-\log \left[\pi_{0}\left(t_{i} | \phi_{i}\right)\right]
C(W,b)=N1i=1∑N−log[π0(ti∣ϕi)]
因为 π 0 \pi_{0} π0依赖于 Φ \Phi Φ,我们用 Φ \Phi Φ和 h h h参数的每一个最新值更新 [ W , b ] [W, b] [W,b],因此,这是具有两个目标的多目标优化问题,即等式(1)和(6) — 我们尝试进行交替求解。也就是说,每一步训练迭代包含两个步骤:
- 优化等式(1)
使用随机梯度下降法来更新表征网络和输出网络的参数—即 U U U和 V V V,来最小化等式(1)。注意,根据等式(4)和等式(5)计算得的事实损失项中的 ω i \omega_{i} ωi,在优化过程中保持参数 [ W , b ] [W, b] [W,b]不变。 - 优化等式(6)
更新倾向值得分函数 π 0 ( t ∣ ϕ ) \pi_{0}(t | \phi) π0(t∣ϕ)的参数—即参数 [ W , b ] [W, b] [W,b],然后保持参数 U U U和 V V V不变。
算法1详细地描述了整个过程。注意,两个目标函数每次都是小批计算的。图5(b)即为我们的网络架构。
算法
- 输入:观测数据集 { [ x 1 , t 1 , y 1 ] , … , [ x N , t N , y N ] } \left\{\left[x_{1}, t_{1}, y_{1}\right], \ldots,\left[x_{N}, t_{N}, y_{N}\right]\right\} {[x1,t1,y1],…,[xN,tN,yN]},批大小为m,放缩参数为 α \alpha α>0,正则化参数为 π 0 π_0 π0>0,损失函数 L ( ⋅ , ⋅ ) L(\cdot, \cdot) L(⋅,⋅),带初始化权重 [ U ] [U] [U]的表征网络 Φ U \Phi_{U} ΦU,带初始化权重 [ V ] [V] [V]的结果网络 h V h_{V} hV,IPM函数族,带初始化权重 [ W , b ] [W, b] [W,b]的倾向值网络 π \pi π,总迭代次数限制 I I I
- 估计概率: Pr ( t ) , t ∈ { 0 , 1 } \operatorname{Pr}(t), t \in\{0,1\} Pr(t),t∈{0,1}
- for iter = 1 to I I I do:
- 批采样 { i 1 , i 2 , … , i m } ⊂ { 1 , 2 , … , N } \left\{i_{1}, i_{2}, \ldots, i_{m}\right\} \subset\{1,2, \ldots, N\} {i1,i2,…,im}⊂{1,2,…,N}
- 计算差异项的梯度: g d = ∇ U IPM ( { Φ U ( x i j ) } t i j = 0 , { Φ U ( x i j ) } t i j = 1 ) g_{d}=\nabla_{U} \operatorname{IPM}\left(\left\{\Phi_{U}\left(x_{i_{j}}\right)\right\}_{t_{i_{j}}=0,}\left\{\Phi_{U}\left(x_{i_{j}}\right)\right\}_{t_{i_{j}}=1}\right) gd=∇UIPM({ΦU(xij)}tij=0,{ΦU(xij)}tij=1)
- 遵照等式(5),由 W W W和 Pr ( t ) \operatorname{Pr}(t) Pr(t)计算本文提出的重要性抽样权重 ω i j \omega_{i_{j}} ωij
- 计算经验损失的梯度:
g U = ∇ U 1 m ∑ j ω i j ⋅ L [ h V t i j ( Φ U ( x i j ) ) , y i j ] g_{U}=\nabla_{U} \frac{1}{m} \sum_{j} \omega_{i_{j}} \cdot L\left[h_{V}^{t_{i_{j}}}\left(\Phi_{U}\left(x_{i_{j}}\right)\right), y_{i_{j}}\right] gU=∇Um1∑jωij⋅L[hVtij(ΦU(xij)),yij]
g V = ∇ V 1 m ∑ j ω i j ⋅ L [ h V t i j ( Φ U ( x i j ) ) , y i j ] g_{V}=\nabla_{V} \frac{1}{m} \sum_{j} \omega_{i_{j}} \cdot L\left[h_{V}^{t_{i j}}\left(\Phi_{U}\left(x_{i_{j}}\right)\right), y_{i_{j}}\right] gV=∇Vm1∑jωij⋅L[hVtij(ΦU(xij)),yij] - 用标准神经网络梯度优化方法(Adam)获得更新步长或更新矩阵 η 1 \eta_{1} η1
- 更新表征网络和输出网络的权重: [ U , V ] ← [ U − η 1 ( α g d + g U ) , V − η 1 ( g V + 2 λ V ) ] [U, V] \leftarrow\left[U-\eta_{1}\left(\alpha g_{d}+g_{U}\right), V-\eta_{1}\left(g_{V}+2 \lambda V\right)\right] [U,V]←[U−η1(αgd+gU),V−η1(gV+2λV)]
- 计算倾向值网络cost函数的梯度:
g W = ∇ W 1 m ∑ j log [ 1 + e − ( 2 t i j − 1 ) ( Φ U ( x i j ) ⋅ W + b ) ] g_{W}=\nabla_{W} \frac{1}{m} \sum_{j} \log \left[1+e^{-\left(2 t_{i j}-1\right)\left(\Phi_{U}\left(x_{i j}\right) \cdot W+b\right)}\right] gW=∇Wm1∑jlog[1+e−(2tij−1)(ΦU(xij)⋅W+b)]
g b = ∇ b 1 m ∑ j log [ 1 + e − ( 2 t i j − 1 ) ( Φ U ( x i j ) ⋅ W + b ) ] g_{b}=\nabla_{b} \frac{1}{m} \sum_{j} \log \left[1+e^{-\left(2 t_{i j}-1\right)\left(\Phi_{U}\left(x_{i_{j}}\right) \cdot W+b\right)}\right] gb=∇bm1∑jlog[1+e−(2tij−1)(ΦU(xij)⋅W+b)] - 获得 η 2 ∈ R + \eta_{2} \in \mathbb{R}^{+} η2∈R+(%移动距离)
- 更新倾向网络的权重:
[ W , b ] ← [ W , b ] − η 2 [ g W , g b ] [W, b] \leftarrow[W, b]-\eta_{2}\left[g_{W}, g_{b}\right] [W,b]←[W,b]−η2[gW,gb] - 循环结束
- 输出: [ U , V ] [U, V] [U,V]
实验
如前所述,因果推理数据集的一个固有特征是反事实结果不可观测,这使得我们很难评估我们提出的算法的性能。文献中常见的解决方案是获取所有可能干预结果可用的数据集,然后,为了创建一个具有与真实世界相似特征(含选择偏倚)的适当观测数据集,人为舍弃一些样本——参见【Hassanpour 和 Greiner,2018】和【Beygelzimer 和 Langford,2009】。为了更直观比较各模型之间的性能,我们不进行设置合成数据集,而是采用两个公开的基准数据集进行测试。
评价准则
因果效应估计算法的性能度量有两类:基于个体的和基于总体的。在本文中,我们主要期望建立对个体因果效应估计的高性能模型,主要指标为:“异质效应估计的精度”(PEHE)【Hill,2011】和“效应标准化均方根误差”(ENoRMSE)【Shimoni,2018;Karavani,2018】:
PEHE = 1 N ∑ i = 1 N ( e ^ i − e i ) 2 ENoRMSE = 1 N ∑ i = 1 N ( 1 − e ^ i e i ) 2 \begin{aligned} \operatorname{PEHE} &=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(\hat{e}_{i}-\mathrm{e}_{i}\right)^{2}} \\ \text { ENoRMSE } &=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(1-\frac{\hat{\mathrm{e}}_{i}}{\mathrm{e}_{i}}\right)^{2}} \end{aligned} PEHE ENoRMSE =N1i=1∑N(e^i−ei)2=N1i=1∑N(1−eie^i)2
其中, e ^ i = y ^ i 1 − y ^ i 0 \hat{\mathrm{e}}_{i}=\hat{y}_{i}^{1}-\hat{y}_{i}^{0} e^i=y^i1−y^i0是预测效应, e i = y i 1 − y i 0 \mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0} ei=yi1−yi0是真实效应。我们还考虑了总体的性能评估,即“平均干预效果(ATE)”的偏差: ϵ A T E = ∣ A T E − A T E ^ ∣ \epsilon_{\mathrm{ATE}}=|\mathrm{ATE}-\widehat{\mathrm{ATE}}| ϵATE=∣ATE−ATE ∣, 其中 A T E = 1 N ∑ i = 1 N y i 1 − 1 N ∑ j = 1 N y j 0 \mathrm{ATE}=\frac{1}{N} \sum_{i=1}^{N} y_{i}^{1}-\frac{1}{N} \sum_{j=1}^{N} y_{j}^{0} ATE=N1∑i=1Nyi1−N1∑j=1Nyj0,式中 y i 1 y_{i}^{1} yi1 和 y j 0 y_{j}^{0} yj0 分别是干预组和控制组的真实结果,而 A T E ^ \widehat{\mathrm{ATE}} ATE 是基于估计结果计算的。
超参数选择
由于反事实结果不可观测,我们的算法不可能执行标准的内部交叉验证来选择设置超参数。因此,我们的学习者需要获取一些真实效应 e i = y i 1 − y i 0 \mathrm{e}_{i}=y_{i}^{1}-y_{i}^{0} ei=yi1−yi0的估计值 e ~ i \tilde{\mathrm{e}}_{i} e~i,使其能够为其期望的性能度量计算提供一个代替值。SJS估计 y ( x i , ¬ t i ) y\left(x_{i}, \neg t_{i}\right) y(xi,¬ti)作为观测结果 y j ( i ) ¬ t i y_{j(i)}^{\neg t_{i}} yj(i)¬ti的代替,其中 j ( i ) j(i) j(i)是接受干预 ¬ t i \neg t_{i} ¬ti的 x i x_{i} xi的最近邻(即,基于原始 x x x空间上定义的距离度量1-NN)。代替效果为 e ~ 1 − N N = ( 2 t i − 1 ) ( y i t i − y j ( i ) − t i ) \tilde{\mathrm{e}}_{1-\mathrm{NN}}=\left(2 t_{i}-1\right)\left(y_{i}^{t_{i}}-y_{j(i)}^{-t_{i}}\right) e~1−NN=(2ti−1)(yiti−yj(i)−ti)。
然而,我们的实验结果表明,这种方法很难选择出较好的超参数。因为选择偏倚的存在,在另一实验组中的最近邻 j ( i ) j(i) j(i)可能不足以代表其反事实结果。因此,估计的替代效应可能不可靠,可能无法找到最佳的超参数集。
一个更好的解决方案是采用更强的反事实回归方法——如贝叶斯加性回归树(BART)【Chipman,2010】。但是一个有趣的结果是,我们实验结果表明CFR和CFR-ISW的性能比BART要好,与 e ~ 1 − N N \tilde{e}_{1-\mathrm{NN}} e~1−NN相比, e ~ B A R T \tilde{\mathrm{e}}_{\mathrm{BART}} e~BART识别出更好的超参数集(通过 P E H E B A R T PEHE_{BART} PEHEBART或 E N o R M S E B A R T ENoRMSE_{BART} ENoRMSEBART)。
结果和讨论
在本文中,我们将我们提出的CFR-ISW与以下几种ITE估计方法进行了实验对比:
- 1-NN:一阶最近邻算法 — baseline
- BART: 贝叶斯加性回归树方法【Chipman,2010】
- CFR: 反事实回归法(即SJS)
- RCFR: 加权反事实回归法【Johansson,2018】
接下来,我们将说明用于评估的两个基准数据集的特点,并且讨论了我们方法在这些数据集上的性能,并将其与其他几个算法进行了比较。
婴儿健康和发展计划(IHDP)
IHDP是一个二元干预数据集,旨在评估专家家访对早产儿未来认知测试分数的影响。2011年,Hill通过从原始RCT数据中移除实验群体中的非随机子集产生选择偏倚,创建了一个真实的观察数据集。结果数据集中包含747个样本(608个控制组,139个干预组),每个样本具有25个协变量,包括测量道德婴儿及其母亲的一些属性。
大西洋因果推理会议 2018 (ACIC’18)
未来工作和总结
目前,该方法只能应用于二值干预数据集。我们计划探索在有多种(分类)干预方法的情况下,甚至是连续实数干预选择时,促进反事实回归的方法,例如预测糖尿病患者服用胰岛素的正确剂量。
在本文中,我们提出了情境感知重要性抽样加权方案,其将有助于减轻选择偏倚对个体干预效果(ITEs)估计模型精度的负面影响。此外,我们还设置了一个超参数选择程序,它在寻优模型性能方面起着重要的作用。我们在反事实回归(CFR)框架【Shalit,2017】中引入了我们的方法,因此我们将其称之为具有重要抽样权重的反事实回归模型(CFR-ISW)。
我们使用1-NN(baseline)、贝叶斯加性回归树(BART)和最新方法,在两个公开的基准数据集上进行实验:(i)婴儿健康和发展计划(IHDP)和(ii)大西洋因果推断会议2018(ACIC’18)数据挑战赛,然后对比了CFR-ISW的评估结果。实验结果表明,在估计因果效应的三个常用性能指标上——非均匀效应估计精度(PEHE)、效应归一化均方根误差(ENoRMSE),平均治疗效果的误差(ATE),CFR-ISW显著 ( p < α = 0.05 ) (p<\alpha=0.05) (p<α=0.05)优于所有其他方法。
附录
超参数
我们采用梯度下降法训练优化了CFR-ISW的
π
0
π_0
π0逻辑回归函数,学习率为1E-3。
对于CFR和CFR-ISW,我们采用
λ
=
1
E
−
3
\lambda=1 \mathrm{E}-3
λ=1E−3作为正则化系数,采用elu作为非线性激活函数,采用Adam算法作为模型优化器,学习率设置为1E-3,最大迭代次数设置为3000步来训练
Φ
\Phi
Φ和
h
t
h^{t}
ht网络。本文采用最大均值差异(MMD)作为我们的IPM来计算
Pr
(
Φ
∣
t
=
1
)
\operatorname{Pr}(\Phi | t=1)
Pr(Φ∣t=1) 和
Pr
(
Φ
∣
t
=
0
)
\operatorname{Pr}(\Phi | t=0)
Pr(Φ∣t=0)两者分布之间的差异。有关本文超参数搜索空间的详细信息,请参见表3。
超参数 | 搜索范围 |
---|---|
不平衡参数 α \alpha α | 1E{-2, -1, 0, 1} |
正则化系数 λ \lambda λ | 1E-3 |
学习率 | 1E-3 |
批大小 | {100, 300} |
表征网络层数 | {3, 5} |
输出网络层数 | {3, 5} |
表征层节点数 | {50, 100, 200} |
输出层节点数 | {50, 100, 200} |
最大迭代次数 | 3000 |