因果推断1:Counterfactual Prediction for Bundle Treatment(NeurIPS 2020)

Thr3E-

已于 2022-07-24 17:18:57 修改

阅读量982

点赞数 1

文章标签： python 人工智能算法

于 2022-07-24 11:08:23 首次发布

本文链接：https://blog.csdn.net/cqy33333/article/details/125956889

版权

因果推断：Bundle Treatment

1 摘要& 2 introducation
- 介绍Bundle Treatment的定义
3 Problem Statement and Approach

1 摘要& 2 introducation

介绍Bundle Treatment的定义

treatment有很多种形式，例如二元、连续型、多值（ multi-level）等，bundle treatment通常被描述成一种高维的二值向量的集合，例如，在推荐系统中，bundle treatment可以是一些同时曝光的项目，这些项目是从一个大的候选池中选择的，处理的每个维度意味着相应的项目是否在捆绑中。
在这里插入图片描述

介绍confounding bias

例如，推荐系统中的产品曝光率通常与用户信息和访问历史相混淆。导致收集观察数据的分布和随机分配treatment的分布之间的差异，这种差异可能导致预测模型关注被分配策略赋予更大概率的treatment的结果估计，而忽略了其他treatment，因此，为了获得可靠的估计，我们需要通过分离混杂因素和治疗的关联性来减少观察性数据的混杂偏差。

介绍假设

假设原始处理一般是由一个低维的潜变量产生的。例如，在推荐系统中，被一起曝光的推荐项目通常由几个潜在因素决定，如项目类别和价格。捆绑处理设置下的数据生成过程可以被抽象为图1中的图示。因此，与其将高维的原始处理和混杂因素进行分离（T和X分离），不如通过推断处理的潜伏因素并将其与混杂因素进行分离（X和Z）来消除混杂偏差，这是一种自然的想法。
在这里插入图片描述

挑战

高维的treatment对于分离数据的confounding bias比较困难。（解决手段：假设引起高维bundle treatment的潜变量其结构是低维的，通过对潜表征的学习，并提出了一种variational sample re-weighting（VSR）的方法分离treatment和confounder，进而消除confounding bias）

思路

使用VAE去学习潜表征，并推导出基于神经网络的密度比估计来分离X和Z，通过汇总潜变量的整个变异分布中的密度比来计算样本权重的分布，而不是点估计。

3 Problem Statement and Approach

证明Z和T独立等价于X和T独立

在这里插入图片描述

证明加权后的样本能够最优化反事实预测误差

在这里插入图片描述

3.2 使用VAE 学习潜表征Z

得到encoder $P (T ∣ Z)$ 和decoder $P (Z ∣ T)$

3.3 学习一个二分类器，满足给定一个数据点，输出label=0/label=1的概率（即样本权重）

因果推断领域的经典样本权重学习方法几乎都集中在二元treatment的处理中，很难扩展到对潜变量和混杂因素的分离。为了解决这个问题，我们引入了基于深度神经网络的密度比估计方法[30]。
我们将来自观察数据集 ${(x_i , z)}, 1≤i≤n$ , $z ∼ q(z|t_i)$ 的转换数据点作为正样本(L = 1)，将去除相关的目标数据集 ${(x_i,z)}, 1≤i≤n$ , $z \sim p (z)$ (高斯分布)的数据点作为负样本(L = 0)。将这些数据点拟合到基于深度神经网络的分类器 $p_θ（L|X，Z）$ 中后，我们可以通过贝叶斯定理得到空间X×Z的密度比。
在这里插入图片描述
其中 $p (L ∣ X, Z)$ 是由分类器 $p_θ(L|X, Z)$ 估计的，而p(L=1)/p(L=0)对所有数据点都等于1(?)。我们的VSR算法的示意图如图2所示。上述整个过程可以看作是对训练数据的预处理，通过预处理可以有效减少原始数据中的混杂偏差，之后可以无缝地应用任何现成的预测模型。