Double Machine Learning(DML) 原理及其应用
1. 为什么需要DML?
- 用
来做因果推断
- 优势
- 减少函数形式的假设
- 可以对高维数据进行建模
- 自带正则化可以达到变量选择的目的
- 劣势
-
只关注预测效果
- 对Treatment effect的估计可能是有偏的,需要权衡偏差和方差
-
的收敛速度一般小于
- 不能给出置信区间
-
- 优势
-
- 消除偏差
- 收敛速度
- 可以构建置信区间
2. DML原理
2.1 符号定义
- Y是实验影响的核心指标
- T是treatment,通常是0/1变量,代表样本进入实验组还是对照组,对随机AB实验T⊥X
- X是Confounder,可以简单理解为未被实验干预过的用户特征,通常是高维向量
最直接的方法就是用X和T一起对Y建模,直接估计。 但这样估计出的
往往是有偏的,偏差部分来自于对样本的过拟合,部分来自于
估计的偏差
2.2 DML训练过程
- 利用任意ML模型拟合Y和T得到残差
,
- 对
,
利用任何ML模型拟合
的拟合可以是参数模型也可以是非参数模型,参数模型可以直接拟合。而非参数模型因为只接受输入和输出所以需要再做如下变换,模型target变为
, 样本权重为