双重机器学习DML介绍

最新推荐文章于 2025-10-30 16:18:06 发布

原创最新推荐文章于 2025-10-30 16:18:06 发布 · 2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#因果推断 #DML #双重稳健

因果推断专栏收录该内容

7 篇文章

订阅专栏

本文参考：
[1]文心一言回答；

一、核心原理与数学框架

双重机器学习（Double Machine Learning, DML）由Chernozhukov等学者于2018年提出，是一种结合机器学习与传统计量经济学的因果推断框架。其核心目标是在高维数据和非线性关系下，无偏估计处理变量（如政策、治疗）对结果变量（如收入、健康）的因果效应。

1. 基本模型设定

DML通常基于部分线性模型（Partially Linear Model, PLR）：
在这里插入图片描述

2. 核心步骤：两阶段残差回归

在这里插入图片描述

3. 关键技术：交叉拟合与正交化

在这里插入图片描述

4.DML的优势

处理高维数据：通过机器学习自动筛选重要协变量，避免“维度诅咒”。
非线性关系建模：支持随机森林、神经网络等非线性模型，适应复杂数据结构。
稳健性：交叉拟合和正交化技术降低过拟合风险，确保估计无偏。

二、DML无偏的数学原理

1.数学框架：部分线性模型（PLR）

DML的核心基于以下部分线性模型：
在这里插入图片描述

2. 正交化：剥离协变量影响

步骤1：残差化处理

在这里插入图片描述

步骤2：残差回归

在这里插入图片描述

3. Cross-fitting：避免过拟合

在这里插入图片描述

4.Neyman正交性：对模型偏误不敏感

在这里插入图片描述

5. 关键点总结

正交化：通过残差化剥离协变量X的影响，确保T~ 和 Y~ 与X正交。
交叉拟合：避免过拟合，提高估计的稳健性。
Neyman正交性：对第一阶段模型偏误不敏感，保证无偏性。
机器学习灵活性：支持非线性模型（如随机森林、神经网络），适应复杂数据结构。

三、DML的双重稳健体现

双重机器学习（DML）的“双重稳健”性体现在其对两种独立误差来源的稳健性，以及通过正交化与交叉拟合技术实现的双重保障。以下是具体体现：
对第一阶段模型偏误的稳健性：即使第一阶段模型存在误差，只要满足正交性条件，第二阶段估计仍无偏。
对模型选择的稳健性：无论使用线性还是非线性模型，只要正确应用正交化和交叉拟合，估计量都是无偏的。
交叉拟合的双重保障：通过样本分割和交叉验证，避免过拟合并提高稳健性。