假设你想研究吸烟与肺癌的关系,那么很显然,你会画出这样的一张表:
可万一你搜集到的吸烟的样本全部处于20岁年龄段,而不吸烟的样本全部处于30岁年龄段,这样一来,由于年龄与疾病捉摸不定的关系,很有可能你所看到的吸烟与肺癌的关系实际上是年龄在起作用。于是很自然地,我们就会想到按照年龄给样本分成两类,一类20岁,一类30岁,然后分别搜集不同年龄层的样本,在各自的年龄层里,对吸烟与肺癌进行研究。
类似年龄这样对吸烟与肺癌存在影响的因素还有很多,我们在研究的时候,需要将它们都控制为常数,否则研究的结果将没有多大的意义。
可以看出,绝大多数研究的关键部分在于控制变量的选择。为了研究
部分表 (Partial Tables)
部分表
按照控制变量
边缘表
将
条件关联性
部分表中的关联性称为条件关联性,因为它代表的是
条件关联与边缘关联
我们可以来看这样的一个数据集:
这里展示的是一张三向列联表,包含了被告者(defendant)种族,受害者(victim)种族以及是否判死刑(death penalty)的信息。这里,我们的
我们分别来看受害者不同,种族不同时判处死刑的情况。
- 当受害者为白人,被告为白人,被告被判处死刑的比例为
- 当受害者为白人,被告为黑人,被告被判处死刑的比例为
- 当受害者为黑人,被告为白人,被告被判处死刑的比例为
- 当受害者为黑人,被告为黑人,被告被判处死刑的比例为
可以看出,对于同一种族的受害者,被告若是黑人,那么他被判处死刑的概率会更大。
但是,我们分析边缘表却发现:
- 被告为白人,被告被判处死刑的比例为
- 被告为黑人,被告被判处死刑的比例为
也就是说,如果我们不考虑按受害者分层,白人似乎更容易被判处死刑。
如此相反的结论是怎么回事呢?这便是我们的辛普森悖论。
辛普森悖论
辛普森悖论指边缘关联(marginal association)与条件关联(conditional association)有相反结论的情况。我们用边缘优势比与条件优势比再来回顾一下这个例子中的辛普森悖论。
边缘关联与条件关联之间的差异性取决于控制变量与其他变量之间的关联性,即受害者种族与【被告种族、是否判死刑】之间的关联性。
我们分别计算出变量之间的边缘优势比:
- 受害者种族与被告种族
library(cdabookfunc)
library(cdabookdb) #这俩是我们老师自己的学生助研写的包
> (margin.defendant.victims=margin.table(deathpenalty1,margin=c(1,2)))
Victim
Defendant White Black
White 467 16
Black 48 143
> oddsratio(margin.defendant.victims)
oddsratio
1 86.95443
可以看出来受害者种族与被告种族之间还是有很强的关联性的。优势比87表明了白人被告侵犯白人受害者的优势是黑人被告侵犯白人受害者优势的87倍。所以,白人更倾向于侵犯白人。
- 是否判处死刑与被告者种族
> (margin.defendant.deathpenalty=margin.table(deathpenalty1,margin=c(1,3)))
DeathPenalty
Defendant Yes No
White 53 430
Black 15 176
> oddsratio(margin.defendant.deathpenalty)
oddsratio
1 1.446202
如果忽略受害者种族,那么我们可以得到优势比的估计值为1.45。这个结果表明白人被告被判死刑的样本优势比黑人被告被判死刑的样本优势高
- 是否判处死刑与受害者种族
> (margin.defendant.deathpenalty=margin.table(deathpenalty1,margin=c(2,3)))
DeathPenalty
Victim Yes No
White 64 451
Black 4 155
> oddsratio(margin.defendant.deathpenalty)
oddsratio
1 5.498891
如果忽略被告者的种族,那么我们可以得到,如果受害者是白人,那么犯罪者更容易被判处死刑。
虽然我们之前已经计算过控制种族变量时不同种族的被告被判处死刑的比例,这里,我们将计算出所有的条件优势比来描述变量之间的关联性。
- 被害者种族与被告种族
> deathpenalty1[,,1] #被判处死刑
Victim
Defendant White Black
White 53 0
Black 11 4
> deathpenalty1[,,2] #未被判处死刑
Victim
Defendant White Black
White 414 16
Black 37 139
> oddsratio(deathpenalty1[,,1])
oddsratio
1 Inf
> oddsratio(deathpenalty1[,,2])
oddsratio
1 97.20608
这里我们可以看出,当给定判处死刑的前提时,白人侵犯白人的倾向性是非常明显的——因为我们没有白人因为侵犯黑人而被判处死刑的样本。给定了未判处死刑的前提后,优势比依然很大。这个层面上,条件优势比与边缘优势比得出的结果似乎是一致的,但条件优势比显示出的倾向性更强。
- 是否判处死刑与被告者种族
> deathpenalty1[,1,] #受害者为白人
DeathPenalty
Defendant Yes No
White 53 414
Black 11 37
> deathpenalty1[,2,] #受害者为黑人
DeathPenalty
Defendant Yes No
White 0 16
Black 4 139
> oddsratio(deathpenalty1[,1,])
oddsratio
1 0.4306105
> oddsratio(deathpenalty1[,2,])
oddsratio
1 0
这里我们可以明显看出来,当我们控制受害人为白人的时候,白人被告被判死刑的样本优势是黑人被告被判死刑样本优势的
- 是否判处死刑与受害者种族
> deathpenalty1[1,,]
DeathPenalty
Victim Yes No
White 53 414
Black 0 16
> deathpenalty1[2,,]
DeathPenalty
Victim Yes No
White 11 37
Black 4 139
> oddsratio(deathpenalty1[1,,])
oddsratio
1 Inf
> oddsratio(deathpenalty1[2,,])
oddsratio
1 10.33108
控制被告者种族得到的条件优势比暗示我们的结论与对应的边缘优势比似乎也是一致的。若受害者为白人,被告更容易被判处死刑。
此例中的辛普森悖论:忽略受害者种族,白人被告比黑人被告更容易被判死刑;给定受害者种族,黑人被告更容易被判死刑。
为什么会出现辛普森悖论呢?
这张图,横轴表示被告的种族,纵轴表示被判死刑的比例。标有W的圆表示受害者为白人,标有B的圆表示受害者为黑人,W与B的纵坐标分别代表了被判死刑的比例。圆的面积代表这个被告种族和受害者种族组合的样本数与总样本数的比例 [这个面积在我看来其实相当于在忽略受害者种族时给比例的加权,面积越大的圆权重越大]。
控制受害者种族我们可以比较拥有相同的圆心字母的圆。连接两个W的线与连接两个B的线斜率均为正——这表明给定受害者种族,黑人被告比白人被告被判死刑的概率更高。
可是当我们忽略受害者的种族,直接考虑被告者种族对死刑的边缘影响时,由于侵犯白人的白人样本数有
当然,对于这张表,我们还可以利用先前学过的
条件独立与边缘独立
如果在每张部分表中,