因果推断的核心内容,实际上想办法将未观测到的潜在结果(即反事实结果)估计出来
一.前言
如果说到数据分析的核心技能,抛开基本工具与知识的掌握,业务理解、数据敏感度与分析思维才是关键。其中分析思维,我认为区别于业务数分的关键,是怎么绕开数据的陷阱,得出稳健的结论。
如果只是多维度去拆分,去透视数据,那么业务方也能做,但是他们得出的结论不会稳健。拿工作遇到的推广问题来说,为什么发现某个因素对转化率有益,真正开始提高投放占比的时候,效果却差了很多?又或者,投放中经常会遇到难以分拆出量和质的影响,因为一般而言,购买人数提高了,转化率一般也会下降。这个时候难以判断是策略的影响还是购买量提高带来的。投放不能做出精准的AB实验,因为针对不同账号,不同广告计划,使用不同的投放策略,我们无法去控制购买用户会随机分配到两组,不能实现随机化实验来验证结果。
基于以上,我经常困惑,怎么样的数据分析思维得出的结论才是稳健的,才能正确指导业务方向,才是比业务自己的数据分析更加专业的,而不是说我们的结论,今天适用,明天就不适用了。
我希望从统计,计量经济学,因果推断中,找到科学的分析方法。
二.两种分析悖论
1.辛普森悖论
第一个悖论是我们比较熟悉的辛普森悖论。
美国加州大学伯克利分校研究生录取数据中,男生录取率为44%,女生录取率为35%,那能依据这一观测数据,认为伯克利分校研究生录取存在性别歧视吗?Bicke对此做了研究&#