Causality Problems(相关不一定是因果):
- 伪关系:Y和X只是恰巧同时发生,实际上没有明显的逻辑上的关联,如巧克力销量和诺奖得主数量
- 遗漏变量偏差:存在既影响X也影响Y的混淆变量,如年龄混淆了年收入和罹患癌症几率之间的关系
- 幸存者偏差:部分样本没有被收集到
- 反向因果
- 联立性偏差
因果分析的核心:
- identification:将因果关系从关联中分割
- estimation:计算因果关系的大小
- inference:基于统计的推断(有多大的信心结果是正确的Hypothesis testing,结果会存在多大的波动Confidence interval)
- 流派:
- Potential Outcome Model:个体i的因果效应,因为真实世界不存在平行宇宙,(个体受到效用后的结果)或(个体未收到效用后的结果)只有一个可以被观测到,所以需要构造合适的对照组来模拟这种情况,即counterfactual
- Graph Causal Model:
因果分析的工具:
- A/B testing:
- Matching:
- CEM
- PSM
- Fixed Effect
- Difference-in-differences:
- 是一种特殊的固定效应模型,模型简单,基本不需要算法拟合
- 核心假设:Parallel Trend
- 指标差异拆分为trend和treatment带来的差异两部分,通过平行趋势检验,利用对照组政策前后的波动差异来量化trend,从而剥离出treatment带来的独立影响(类似于“AB差异-AA差异=真实策略差异”的思想)
- Synthetic Control:
- 对实验组在实验日期之后构造一个虚拟的对照组
- 由于该方法对内生性控制方面的扩展不足, 比较适合外生事件的分析。内生事件的分析推荐用PSM
- 不适用于微观数据分析,原因有:不存在十年以上的微观数据 (比如说追踪调查);该方法不适用于参照组无限大的情况 (比如说统计了上千家庭的微观截面数据 );即适合小样本量长时间跨度(matching+DID适合大样本量短时间跨度)
- 适用于“试点项目“
- Matrix Completion
例子:一项新活动上线,评估该活动对用户价值的影响:
- 对比活动前后的用户价值:没有剥离前后两个时段的市场要素的差异;
- 对比参与活动的用户与未参与活动的用户:参与活动的用户大概率本事是忠实用户(选择偏差);
- AB实验:一组可以看到活动,一组看不到活动,对比两组用户:可以进一步筛选出可以看到活动的用户中参与了该活动的用户,此外如果参与该活动的渗透率低,可以考虑在看不到活动的组中做matching
Reference