本文重点梳理从因果树到因果森林、再到广义随机森林,正交随机森林,其中不乏涉及相关论文的精读推导.
1. 因果树
- 定义:处理效应的均方误差
- 公式:
- 核心点:"诚实"估计,honest approach
- 定义:①原来的树方法,使用训练样本训练出模型以后,我们用训练样本上各个子集的样本均值做为估计值,然后使用该估计值在测试集(test set)上计算MSE来判断模型的好坏;②修改后的计算方法,将训练样本切割成两部分,一部分仍是训练样本(train set),另一部分是估计样本(estimate set),即在训练样本上训练模型,模型训练好以后放到估计样本上计算估计值,最后使用该估计值在测试集上计算MSE来判断模型的好坏。
- 文章亮点:
- 改为诚实方法: 修改了MSE的表达式, 标准的Rubin因果框架假设样本个体间不存在相关性(SUTVA),保住了此假设.
- 修改了均方误差的计算方法。
- 公式: