一、双重机器学习简介
最近,学界内有关双重机器学习的文献逐渐崭露头角,越来越多的研究者开始关注并应用这一方法,其应用范围逐步适用于区域经济学、发展经济学、环境经济学和企业金融等领域的政策评估。
什么是双重机器学习呢?
双重机器学习(Double/debiased Machine Learning, DDML)是一种专门用于因果推理的统计方法,它结合了传统回归分析和现代机器学习技术,以更准确地估计因果效应。其主要目的是在存在大量控制变量或高维数据的情况下,克服传统方法的局限性,提供更加稳健和无偏的因果效应估计。
双重机器学习的核心思想是什么?
双重机器学习的核心思想是将因果推理问题分解为两个独立的预测步骤,利用机器学习算法来提高因果效应估计的准确性和稳健性。首先,使用控制变量集预测结果变量(Y),得到预测残差,去除由控制变量解释的部分。接着,使用同样的控制变量集预测处理变量(X),得到其残差,去除控制变量的影响。最后,通过回归分析这两个残差来估计处理变量对结果变量的因果效应。这种方法在处理高维数据和复杂模型时,能够更好地拟合数据,减少由模型错误指定引入的偏差。
二、双重机器学习原理和模型
(1)双重机器学习估计原理
Y是被解释变量;T 是处置变量,即代表样本是否受到实验干预,通常是 0 或 1 的虚拟变量;X 是协变量,代表未被实验干预预测的个体特征,通常是高维向量。通常情况下,我们直接构建线性回归模型,即用 X 和 T 对 Y 回归,估计 T 的系数,这种方法假定了我们已知 X 的分布。
事实上,高维的 X 可能内部存在共线性,与 Y 是非线性关系,若单纯的用线性模型进行估计,会存在偏误。因此,我们应用机器学习模型估计 X 的分布,其中𝑓(⋅)和𝑔(⋅)为机器学习模型。
(2)双重机器学习估计步骤
三、双重机器学习stata代码
本文以双重机器学习方法的经典文献《网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断》的附件代码为例,利用stata和python实现双重机器学习估计过程。