最近阅读了文章:Using Machine Learning to Target Treatment The Case of Household Energy Use,写下此文,记录文章的主要内容和R语言grf包causal forest方法的简单过程。
一、文章的基本内容和方法
引言
(1)背景
Machine-learning algorithms have traditionally been built for prediction of from y, rather than parameter estimation of treatment effect β.(机器学习方法主要用于预测y值,而不是β值。)即普通的机器学习方法不能用于因果推断。因此,本文希望可以提出一种可以用于因果推断的机器学习方法,即因果森林算法(causal forest algorithm),依托于R语言generalized random forest 包(grf包,广义随机森林模型)。
(2)目的
文章基于美国家庭的90万能源使用数据,识别“节能宣传行为-在家庭能源报告中提供节能信息”是否可以推动家庭节约能源使用,量化政策效果,探究家庭特征对结果的影响。
方法
(1)数据
美国新英格兰最大的电力公司Eversource提供家庭能源报告(Home Energy Report, HER),在报告中,公司会不定期的提供节能的相关信息。研究地区和用能结构如下方左图。结合了三类数据:来自Eversource的家庭月用电量;Eversource政策刺激的时间安排(treatment);以及消费者人口和社会经济特征。
本次研究的数据利用了15波政策刺激数据,覆盖了902581个Eversource住宅客户。观察了2013-2018年的每月家庭用电量以及与家庭及其住户相关的横截面特征。其中,部分月份,该公司会提供如下的信息(下方右图),告诉消费者有效能耗、你的能耗和你邻居的能耗的差别,并提供一些节能方案(被视为政策刺激)。