因果分析系列8----合适的控制变量

这篇博客探讨了在因果分析中选择控制变量的重要性。通过实例解释了好的控制变量如何帮助降低处理效应的方差,以及仅影响处理变量而不影响结果的控制变量可能导致的方差增加。文章还区分了混杂变量、对结果有预测性的控制变量以及导致选择性偏差的控制变量,并提供了相应的因果图示例。
摘要由CSDN通过智能技术生成

1.好的控制变量

因果系列6因果系列7介绍了如何向回归模型中添加额外的控制变量以确定因果效应。如果控制变量是混杂变量,则必须将其添加到模型中。很多人看到这一点时,自然的反应是将TA能够测量的所有变量都放入模型中。在今天的大数据世界中,最终很可能超过1000个变量。事实证明,这完全没必要,而且很可能不利于因果识别。现在我们将把注意力转向不是混杂变量的控制变量。我们先看看怎样的是好的控制变量。然后,再深入探讨怎样的是坏的控制变量。

首先来看一个例子,假设你是一家金融科技公司催收团队中的数据科学家。你的任务是研究发送一封电子邮件要求逾期客户偿还债务对回收款金额的影响。因变量是逾期客户的付款金额。

为了回答这个问题,设计一个这样的实验:从逾期客户库中选择了5000个客户进行随机测试。对于每个客户,通过抛硬币,决定是否向客户发送电子邮件,如果硬币朝上,则向客户发送电子邮件,即该客户属于处理组;否则,客户将被作为控制组。通过这个测试,找出这封电子邮件能帮助收回多少违约的钱。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值