因果分析系列8----合适的控制变量
1.好的控制变量
因果系列6和因果系列7介绍了如何向回归模型中添加额外的控制变量以确定因果效应。如果控制变量是混杂变量,则必须将其添加到模型中。很多人看到这一点时,自然的反应是将TA能够测量的所有变量都放入模型中。在今天的大数据世界中,最终很可能超过1000个变量。事实证明,这完全没必要,而且很可能不利于因果识别。现在我们将把注意力转向不是混杂变量的控制变量。我们先看看怎样的是好的控制变量。然后,再深入探讨怎样的是坏的控制变量。
首先来看一个例子,假设你是一家金融科技公司催收团队中的数据科学家。你的任务是研究发送一封电子邮件要求逾期客户偿还债务对回收款金额的影响。因变量是逾期客户的付款金额。
为了回答这个问题,设计一个这样的实验:从逾期客户库中选择了5000个客户进行随机测试。对于每个客户,通过抛硬币,决定是否向客户发送电子邮件,如果硬币朝上,则向客户发送电子邮件,即该客户属于处理组;否则,客户将被作为控制组。通过这个测试,找出这封电子邮件能帮助收回多少违约的钱。