接上文《统计数据上的因果推断--关于Yule-Simpson Paradox》中的第一个例子。在很多情况下推测一个因素是否是某种结果的原因时是无法让受测试的对象在完成TA测试之后能回到初始状态,接着进行TB测试,然后根据测试的结果判断该因素是否在混淆变量的各个方向上都是结果的原因。拿药物测试的例子来说,无法让进行过药物测试的人能够回到没吃药物之前的状态再进行安慰剂的测试。如果可以那对于规避Yule-Simpson将是一个好消息。然而事与愿违是常有的。大家对统计数据上因果推断的质疑源于Simpson悖论,这个悖论存在的原因就是因为受测试的集合往往是无法重复使用的。那么在测试集合无法重复使用的前提下还想用统计分析做因果推断应该如何做呢?
既然如果测试集合相同的前提下就可以规避Simpson悖论。那么我们从这个现象得到一些启发,能否随机的找到两个非常相似测试集合S1和S2,然后在S1和S2上分别进行TA和TB测试。这样的话,由于S1和S2是非常相似的数据集合,那么在混淆变量上的分布也应该是相同或相近的,如此得到的测试结果分析出的因果是可靠的。上述的思想其实就是匹配方法的基本思想。在已知处理组的前提下随机的找到与处理组在混淆变量上相同或相似的集合作为控制组数据来进行对比。当我们的混淆因素只有一个或者极少几个的时候,我们可以直接利用这几个混淆因素来匹配,比如药物测试案例中性别比例。但是,当混