理解Double/debiased machine learning

Jie Qiao

已于 2022-04-06 21:24:09 修改

阅读量2.7k

点赞数 11

分类专栏：人工智能文章标签：人工智能

于 2022-04-06 21:23:39 首次发布

本文链接：https://blog.csdn.net/a358463121/article/details/123999934

版权

人工智能专栏收录该内容

51 篇文章

订阅专栏

基础：线性回归

考虑一个经典线性高斯模型：

$y = a x + u$

其中U服从标准高斯分布，a是回归系数，那么回归的目的是找到一个a，使得x与u独立，即

$\begin{aligned} & cov( y-ax,x) =0\\ \Longrightarrow & cov( y,x) -acov( x,x) =0\\ \Longrightarrow & a=cov( y,x) /cov( x,x) \end{aligned}$

这些知识在后面会反复用到。

Double/debiased machine learning

我们首先考虑这个因果模型(Partially Linear Regression)：

$\begin{array}{ c l } Y=D\theta _{0} +g_{0} (X)+U, & \mathrm{E} [U\mid X,D]=0,\\ D=m_{0} (X)+V, & \mathrm{E} [V\mid X]=0, \end{array}$

其中 $Y$ 是outcome, $D$ 是policy/treatment,且X是个高维的变量

$X_{1} ,\dotsc ,X_{p})$

在这里，我们最关心的是 $\displaystyle \theta _{0}$ ，因为当我们给定某个X的时候， $\displaystyle \theta _{0}$ 就表示了在这个X的群体中，D这个treatment的因果效应。那么估计 $\displaystyle \theta _{0}$ 最简单的方法就是，用机器学习去估计，这里我们先将数据随机分成两份，分别是 $\displaystyle I,I^{c}$ ，不妨假设 $\displaystyle \hat{g}_{0}$ 是通过ML估计的函数，于是给定 $\displaystyle \hat{g}_{0}$ ， $\displaystyle \hat{\theta }_{0}$ 可以用线性回归得到
$\hat{\theta }_{0} =\frac{cov( D,Y-\hat{g}_{0} (X))}{var( D)} =\frac{\frac{1}{n}\sum _{i\in I} D_{i}( Y_{i} -\hat{g}_{0} (X_{i} ))}{\frac{1}{n}\sum _{i\in I} D^{2}_{i}} \tag{1}$
这样的估计量其实很容易有bias，主要原因的它非常依赖于 $\displaystyle \hat{g}_{0}$ 的准确度，万一它有一点偏差就会产生很大的影响，我们来分析一下：

$\begin{aligned} \sqrt{n}(\hat{\theta }_{0} -\theta _{0}) & =\sqrt{n}\frac{\frac{1}{n}\sum _{i\in I} D_{i}( Y_{i} -\hat{g}_{0} (X_{i} ))}{\frac{1}{n}\sum _{i\in I} D^{2}_{i}} -\left(\sqrt{n}\frac{\frac{1}{n}\sum _{i\in I} D_{i}( Y_{i} -g_{0} (X_{i} ))}{\frac{1}{n}\sum _{i\in I} D^{2}_{i}} -\sqrt{n}\frac{\frac{1}{n}\sum _{i\in I} D_{i} U_{i}}{\frac{1}{n}\sum _{i\in I} D^{2}_{i}}\right)\\ & =\underbrace{\left(\frac{1}{n}\sum _{i\in I} D^{2}_{i}\right)^{-1}\frac{1}{\sqrt{n}}\sum _{i\in I} D_{i} U_{i}}_{:=a} +\underbrace{\left(\frac{1}{n}\sum _{i\in I} D^{2}_{i}\right)^{-1}\frac{1}{\sqrt{n}}\sum _{i\in I} D_{i}( g_{0}( X_{i}) -\hat{g}_{0}( X_{i}))}_{:=b} . \end{aligned}$

误差分为两部分，一部分是U和D的独立性，如果不独立的话会形成误差，即

$\theta _{0} =\frac{cov( D,Y-g_{0} (X))}{var( D)} - \underbrace{\frac{cov( D,U)}{var( D)}}_{\ne0}$

当两者独立的话，第一项的收敛其实很快，服从 $a\sim N(0,\overline{\Sigma } )$ . 问题在 $b$ 项，如果X维度很高，那么我们可能会在拟合g时加点正则项（如lasso），就会形成正则化误差，使得g有错误的估计，于是导致b项发散，

$b=\left(E\left[ D^{2}_{i}\right]\right)^{-1}\frac{1}{\sqrt{n}}\sum _{i\in I} m_{0}( X_{i})( g_{0}( X_{i}) -\hat{g}_{0}( X_{i})) +o_{P} (1)$

b项可以进一步写为上式，可以看到主要问题出在 $\displaystyle m_{0}( X_{i})( g_{0}( X_{i}) -\hat{g}_{0}( X_{i}))$ 这个地方， $\displaystyle m_{0}( X_{i})$ 的大小将会极大的影响误差的大小，而 $m_0$ 是数据的性质，无法改变，就会导致我们的估计很不稳定（数据会决定bias的大小）。

有没有可能消掉这一项呢？我们先分析下 $\displaystyle m_{0}( X_{i})$ 出现的最主要的原因是我们用D来回归，然而D包含了X的信息，于是才会有 $\displaystyle m_{0}( X_{i})$ 这一项出现。那有没有可能不用D来回归呢？一个重要的观察是，V其实可以看做工具变量，

在这里插入图片描述

于是D和Y之前的因果效应可以被以下式子估计：

$\theta _{0} =\frac{cov( V,Y-g_{0}( X))}{cov( V,D)} =\frac{cov( D-m_{0}( X) ,Y-g_{0}( X))}{cov( D-m_{0}( X) ,D)} =\frac{cov( D-m_{0}( X) ,D\theta _{0} +U)}{cov( D-m_{0}( X) ,D)}$

因此，为了求V，我们可以求：

$\hat{V} =D-\hat{m}_{0}( X)$

这个 $\displaystyle \hat{m}_{0}( X)$ 可以用X对D回归来得到，于是得到了新的一种估计
$\breve{\theta }_{0} =\frac{\frac{1}{n}\sum _{i\in I}\hat{V}_{i}( Y_{i} -\hat{g}_{0} (X_{i} ))}{\frac{1}{n}\sum _{i\in I}\widehat{V_{i}} D_{i}} \tag{2}$
直观来看，因为V不包含X的信息，所以在上面b项中 $\displaystyle m_{0}( X_{i})$ 带来的误差可以被消去，事实上，在这个新的估计量下，这个新的b项将变为

$b^{*} =\left(E\left[ D^{2}_{i}\right]\right)^{-1}\frac{1}{\sqrt{n}}\sum _{i\in I}(\hat{m}_{0}( X_{i}) -m_{0}( X_{i}))( g_{0}( X_{i}) -\hat{g}_{0}( X_{i}))$

显然，这将能得到一个更为robust估计，因为现在bias只取决于回归误差了。

PS：从 $\displaystyle \theta _{0} =\frac{cov( D-m_{0}( X) ,D\theta _{0} +U)}{cov( D-m_{0}( X) ,D)}$ 这个式子来看，其实我们完全可以将下面的D也换成 $\displaystyle \theta _{0} =\frac{cov( D-m_{0}( X) ,D\theta _{0} +U)}{cov( D-m_{0}( X) ,D-m_{0}( X))}$ ，这并不影响我们的结果，这样的估计量最早由Robinson (1988) [1] 提出.

Neyman orthogonality and moment conditions.

上文只是介绍了一个Partially Linear Regression构造robust估计量的方法，那这套方法能不能被抽象出来，使其适用于更多的场景？

那我们先总结一些性质，

我们有一个目标参数 $\displaystyle \theta _{0}$ ，然后有其他不太关心的但可以用各种机器学习方法得到的回归函数， $\displaystyle g,m$
估计 $\displaystyle \theta _{0}$ 有多种不同的方法，有的好有的坏，而坏的原因在于某个用机器学习拟合的 $\displaystyle \hat{g}$ 如果出现误差，则误差项的均值将不再为0，从而不收敛。
为此，我们需要构造一种“正交”的估计量，使得即使g或者m出现误差也能保证误差足够小。

针对第一个性质，我们可以将公式1的估计量写成：

$\frac{1}{n}\sum _{i\in I} \varphi ( W;\hat{\theta }_{0} ,\hat{g}_{0}) =0$

在上面的例子，就是线性回归中，找到噪声与x协方差独立，即

$Y-\theta D-g( X) ,D) =0\\ \Longrightarrow \theta =cov( Y-g( X) ,D) /var( D)$

因此
$\varphi ( W;\theta ,g) =( Y-\theta D-g( X)) D$

相当于 $\displaystyle cov( Y-\theta D-g( X) ,D) =0$ .
然而在这个估计量的问题是，当g不太准的时候，将会有较大的误差，这个误差理解为g一些微小的扰动而导致 $\varphi$ 发生较大的变化。那么怎么衡量这一变化呢？其实就是Gateaux dervative导数：
$\partial _{g} E[ \varphi ( W;\theta _{0} ,g_{0})][ g-g_{0}] \neq 0$
不等于0。这个Gateaux dervative的定义是

$\partial _{g} E[ \varphi ( W;\theta _{0} ,g_{0})] =\lim _{r\rightarrow 0^{+}}\frac{E[ \varphi ( W;\theta _{0} ,g_{0} +r( g-g_{0}))] -E[ \varphi ( W;\theta _{0} ,g_{0})]}{r}$

直观上，它刻画了 $\displaystyle \varphi$ 对 $\displaystyle g$ 变化的敏感度，那如果这个导数等于0，则意味着我们找到了一个更为robust的估计量，事实上，我们上文中的第二种方法正是这样的估计量，公式2可以写成：

$\frac{1}{n}\sum _{i\in I} \psi ( W;\breve{\theta }_{0} ,\hat{\eta }_{0}) =0$

其中 $\displaystyle \hat{\eta }_{0} =(\hat{m}_{0} ,\hat{g}_{0})$ ，被称为nuisance parameter，并且

$\psi ( W;\theta ,\eta ) =( Y-\theta D-g( x))( D-m( x))$

相当于 $\displaystyle cov( Y-\theta D-g( x) ,D-m( x))$ 。可以证明这个估计量的Gateaux dervative为0：
$\partial _{\eta } E[ \varphi ( W;\theta _{0} ,\eta _{0})][ \eta -\eta _{0}] =0 \tag{3}$
我们把这个性质称为Neyman orthogonality.

那有没有一种通用的方法来构造满足Neyman orthogonality性质的这样一个 $\displaystyle \psi$ ?

不妨设

$\max_{\theta ,\beta } E_{p}[ l( W;\theta ,\beta )]$

我们的目标可以通过最大化某个函数得到（通常为对数似然度），于是在极值下的导数为0：

$E_{p}[ \partial _{\theta } l( W;\theta _{0} ,\beta _{0})] =0,E_{p}[ \partial _{\beta } l( W;\theta _{0} ,\beta _{0})] =0$

因此，自然地我们可以令 $\displaystyle \phi ( W;\theta ,\beta ) =\partial _{\theta } l( W;\theta ,\beta )$ ，然而这样的函数不一定满足Neyman orthogonality，所以我们可以自己构造一个估计量

$\psi ( W;\theta ,\beta ) =\partial _{\theta } l( W;\theta ,\beta ) -\mu \partial _{\beta } l( W;\theta ,\beta )$

只要能找到一个合适的 $\displaystyle \mu$ ，使得 $\displaystyle \psi$ ，满足Neyman orthogonality就可以了，即

$\partial _{\beta } \psi ( W;\theta ,\beta ) =\partial _{\theta \beta } l( W;\theta ,\beta ) -\mu \partial _{\beta \beta } l( W;\theta ,\beta ) =0$

我们可以得出解析解， $\displaystyle \mu =J_{\theta \beta } J^{-1}_{\beta \beta }$

参考资料

[1] Robinson, Peter M. “Root-N-consistent semiparametric regression.” Econometrica: Journal of the Econometric Society (1988): 931-954.
[2] Double/debiased machine learning for treatment and structural parameters
[3] https://observablehq.com/@herbps10/one-step-estimators-and-pathwise-derivatives
[4] Visually Communicating and Teaching Intuition for Influence Functions
[5] Approximation Theorems of Mathematical Statistics.
[6] https://vanderlaan-lab.org/2019/12/24/cv-tmle-and-double-machine-learning/
[7] https://academic.oup.com/biostatistics/article/21/2/353/5631845