聊到因果推断与相关性的关系,大家其实都已经有一个认知叫做 相关性 != 因果性, 但学界从统计推断发展到后来因果推断是经历了一个漫长的过程,直到今天,我们仍然基础的对数据的处理和认知离不开统计推断的方法,所以学习了解用观测数据做因果推断可能导致的问题,能帮助我们在分析得到更准确结论的路上,走得更远一些!!
案例1: 中间变量做分层,引发悖论
现象:
-
各血压分层段,都是使用止血带的组治疗效果更差;
-
联来看,使用血压带治疗效果更好;
原因分析:
血压作为中间变量,血压带先作用于血压,在作用于治疗效果;
此外,血压还单独有部分对治疗效果的负向作用
因此,如果按照血压带进行分层,意味着在同分层内,只剩下负向效应,所以表现出不用血压带
案例2:混杂因素做分层,消除悖论
现象:
-
各个年龄段都是运动越多,胆固醇会越小;
-
联合来看,运动量越大,胆固醇越大;