2.1 偏差(Bias) 的来源
首先要理解Bias的产生一般来自于混淆因素(Confounding Factor),也就是我们在研究某个干预T(Treatment,比如 电商平台发放给用户的折扣券额度)对某个结果Y(outcome,比如 用户购买行为实际产生的利润)的因果层面的干预效应(treatment effect),同时 电商公司的干预分配机制(treatment assignment mechanism,比如 电商公司如何决定不同用户的优惠券额度)是根据用户画像进行机器学习建模得到预测购买量,所以具有较大预测购买量的群体会获得更大折扣。同时如果我们的机器学习模型效果好的话,具有较大预测购买量的群体也会产生更大利润。此时,预测购买量就成了同时在因果上影响上述干预T以及结果 Y的混淆因素X(confounding factor)。
这便会导致,大额度折扣券用户(treated group)即使获得小额度折扣券(当然,这种情况我们无法观测,是所谓的反事实潜在结果),相比小额度折扣券用户(untreated group)也会产生更大的购买利润,因为这些得到大额折扣券的用户群体在我们的机器学习建模下就被预测为具有更大的预测购买量。
直观来说就是,分入实验组的群体和分入对照组的群体,在干预实施之前两组都没有收到干预! 结合实际例子理解,即我们通过某种策略对用户进行了分组,得到 大额度折扣券用户组 和 小额度折扣券用户组,而此时我们还没有真的发放优惠券。这时,两组用户已存在一定的偏差(Bias),这是由我们的分组策略导致的。也就是说,得到的两组用户除了即将施加或不施加干预之外,存在其他因素不一致,即作为混淆因素的预测销售不一致,因此两组之间不具备可比性!
2.2 潜在结果框架下Bias的数学表示及讨论
从数学角度描述,也就是:
Bias = E [ Y 0 ∣ T = 1 ] − E [ Y 0 ∣ T = 0 ] \text{Bias} = E[Y_0|T=1] - E[Y_0|T=0] Bias=E[Y0∣T=1]−E[Y0∣T=0]
其中, E [ Y 0 ∣ T = 1 ] E[Y_0|T=1] E[Y0∣T=1] 为treated group 实际无法观测到的反事实潜在结果, E [ Y 0 ∣ T = 0 ] E[Y_0|T=0] E[Y0∣T=0] 为 untreated group 实际观测到的事实潜在结果。
用潜在结果的语言表示:
- 衡量相关性association/correlation:
E [ Y ∣ T = 1 ] − E [ Y ∣ T = 0 ] E[Y\mid T=1]-E[Y\mid T=0] E[Y∣T=1]−E[Y∣T=0] - 衡量因果性causation:
E [ Y 1 − Y 0 ] E[Y_1 - Y_0] E[Y1−Y0]
首先我们来关注对相关性的衡量. 对实验组,观测到的结果为 Y 1 Y_1 Y1. 对照组观测到的结果为 Y 0 Y_0 Y0.
E [ Y ∣ T = 1 ] − E [ Y ∣ T = 0 ] = E [ Y 1 ∣ T = 1 ] − E [ Y 0 ∣ T = 0 ] E[Y \mid T=1]-E[Y \mid T=0]=E\left[Y_1 \mid T=1\right]-E\left[Y_0 \mid T=0\right] E[Y∣T=1]−E[Y∣T=0]=E[Y1∣T=1]−E[Y0