3个表的连接需要 个关联条件。_属性数据分析 | 第二章-列联表-05-三向列联表的关联性...

本文探讨了在数据分析中如何处理三向列联表,特别是涉及条件关联与边缘关联的问题。通过举例说明,揭示了辛普森悖论的现象,即在不同控制变量下,边缘关联与条件关联可能得出相反的结论。文章阐述了如何通过条件优势比和边缘优势比来分析变量间的关联性,并解释了辛普森悖论出现的原因。
摘要由CSDN通过智能技术生成

d286213f7d22bdfa0420520717dce8bf.png

假设你想研究吸烟与肺癌的关系,那么很显然,你会画出这样的一张表:

e46134b8ca4fece9c3d26c47cfdc8ddd.png

可万一你搜集到的吸烟的样本全部处于20岁年龄段,而不吸烟的样本全部处于30岁年龄段,这样一来,由于年龄与疾病捉摸不定的关系,很有可能你所看到的吸烟与肺癌的关系实际上是年龄在起作用。于是很自然地,我们就会想到按照年龄给样本分成两类,一类20岁,一类30岁,然后分别搜集不同年龄层的样本,在各自的年龄层里,对吸烟与肺癌进行研究。

572b00313dad5609e6dddb53f78d8183.png

类似年龄这样对吸烟与肺癌存在影响的因素还有很多,我们在研究的时候,需要将它们都控制为常数,否则研究的结果将没有多大的意义。

可以看出,绝大多数研究的关键部分在于控制变量的选择。为了研究

equation?tex=X
equation?tex=Y 的关系,我们需要控制所有对
equation?tex=X
equation?tex=Y 有影响的变量,因为它们与
equation?tex=X
equation?tex=Y 都存在关联性。为了包含更多的变量,二元分析就不够用了,我们需要采用多元分析。这里我们主要讨论三向列联表。

部分表 (Partial Tables)

部分表

按照控制变量

equation?tex=Z 的各个水平对
equation?tex=X
equation?tex=Y 进行交叉划分得到的截面,我们把他们称做
部分表,就像我们上边那个图20岁的一层,30岁的一层。它展示了当
equation?tex=Z 为固定水平时候
equation?tex=X
equation?tex=Y 的关系。在部分表中,我们通过保持控制变量
equation?tex=Z 为常值来消除这个讨厌的家伙对我们主要研究对象
equation?tex=X%E3%80%81Y 的影响。

边缘表

equation?tex=X
equation?tex=Y 各个部分表加和得到的双向列联表称为
equation?tex=XY 的边缘表。也就是我们不对年龄进行划分得到的列联表。边缘表不包含
equation?tex=Z 的信息,忽略了
equation?tex=Z 的影响。注意这里并没有控制
equation?tex=Z

条件关联性

部分表中的关联性称为条件关联性,因为它代表的是

equation?tex=Z 固定于一定水平时候
equation?tex=X
equation?tex=Y 的影响。部分表中的关联性与边缘表中的关联性可能大相径庭。怎么个大相径庭法,我们接着往下看。

条件关联与边缘关联

我们可以来看这样的一个数据集:

5ff2ef0d3a193d1addb336889427e8f6.png

这里展示的是一张三向列联表,包含了被告者(defendant)种族,受害者(victim)种族以及是否判死刑(death penalty)的信息。这里,我们的

equation?tex=X 为被告人的种族,
equation?tex=Y 为死刑的判决结果,
equation?tex=Z 为受害者的种族。关于变量
equation?tex=X%2CY%2CZ 的命名还是符合我们的习惯的,先行后列,先里后外。Total部分事实上是忽视了变量
equation?tex=Z 的边缘表,而根据受害者种族的不同,我们可以得到两张部分表。

我们分别来看受害者不同,种族不同时判处死刑的情况。

  • 当受害者为白人,被告为白人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B53%7D%7B53%2B414%7D%3D11.3%5C%25
  • 当受害者为白人,被告为黑人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B11%7D%7B11%2B37%7D%3D22.9%5C%25
  • 当受害者为黑人,被告为白人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B0%2B16%7D%7B16%7D%3D0.0%5C%25
  • 当受害者为黑人,被告为黑人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B4%7D%7B4%2B139%7D%3D2.8%5C%25

可以看出,对于同一种族的受害者,被告若是黑人,那么他被判处死刑的概率会更大。

但是,我们分析边缘表却发现:

  • 被告为白人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B53%7D%7B53%2B430%7D%3D11.0%5C%25
  • 被告为黑人,被告被判处死刑的比例为
    equation?tex=%5Cfrac%7B15%7D%7B15%2B176%7D%3D7.9%5C%25

也就是说,如果我们不考虑按受害者分层,白人似乎更容易被判处死刑。

如此相反的结论是怎么回事呢?这便是我们的辛普森悖论。

辛普森悖论

辛普森悖论指边缘关联(marginal association)与条件关联(conditional association)有相反结论的情况。我们用边缘优势比与条件优势比再来回顾一下这个例子中的辛普森悖论。

边缘关联与条件关联之间的差异性取决于控制变量与其他变量之间的关联性,即受害者种族与【被告种族、是否判死刑】之间的关联性。

我们分别计算出变量之间的边缘优势比

  • 受害者种族与被告种族
library(cdabookfunc)
library(cdabookdb) #这俩是我们老师自己的学生助研写的包
> (margin.defendant.victims=margin.table(deathpenalty1,margin=c(1,2)))
         Victim
Defendant White Black
    White   467    16
    Black    48   143
> oddsratio(margin.defendant.victims)
  oddsratio
1  86.95443

可以看出来受害者种族与被告种族之间还是有很强的关联性的。优势比87表明了白人被告侵犯白人受害者的优势是黑人被告侵犯白人受害者优势的87倍。所以,白人更倾向于侵犯白人。

  • 是否判处死刑与被告者种族
> (margin.defendant.deathpenalty=margin.table(deathpenalty1,margin=c(1,3)))
         DeathPenalty
Defendant Yes  No
    White  53 430
    Black  15 176
> oddsratio(margin.defendant.deathpenalty)
  oddsratio
1  1.446202

如果忽略受害者种族,那么我们可以得到优势比的估计值为1.45。这个结果表明白人被告被判死刑的样本优势比黑人被告被判死刑的样本优势高

equation?tex=45%5C%25
  • 是否判处死刑与受害者种族
> (margin.defendant.deathpenalty=margin.table(deathpenalty1,margin=c(2,3)))
       DeathPenalty
Victim  Yes  No
  White  64 451
  Black   4 155
> oddsratio(margin.defendant.deathpenalty)
  oddsratio
1  5.498891

如果忽略被告者的种族,那么我们可以得到,如果受害者是白人,那么犯罪者更容易被判处死刑。

虽然我们之前已经计算过控制种族变量时不同种族的被告被判处死刑的比例,这里,我们将计算出所有的条件优势比来描述变量之间的关联性。

  • 被害者种族与被告种族
> deathpenalty1[,,1] #被判处死刑
         Victim
Defendant White Black
    White    53     0
    Black    11     4
> deathpenalty1[,,2] #未被判处死刑
         Victim
Defendant White Black
    White   414    16
    Black    37   139
> oddsratio(deathpenalty1[,,1]) 
  oddsratio
1       Inf
> oddsratio(deathpenalty1[,,2])
  oddsratio
1  97.20608

这里我们可以看出,当给定判处死刑的前提时,白人侵犯白人的倾向性是非常明显的——因为我们没有白人因为侵犯黑人而被判处死刑的样本。给定了未判处死刑的前提后,优势比依然很大。这个层面上,条件优势比与边缘优势比得出的结果似乎是一致的,但条件优势比显示出的倾向性更强。

  • 是否判处死刑与被告者种族
> deathpenalty1[,1,] #受害者为白人
         DeathPenalty
Defendant Yes  No
    White  53 414
    Black  11  37
> deathpenalty1[,2,] #受害者为黑人
         DeathPenalty
Defendant Yes  No
    White   0  16
    Black   4 139
> oddsratio(deathpenalty1[,1,])
  oddsratio
1 0.4306105
> oddsratio(deathpenalty1[,2,])
  oddsratio
1         0

这里我们可以明显看出来,当我们控制受害人为白人的时候,白人被告被判死刑的样本优势是黑人被告被判死刑样本优势的

equation?tex=43%5C%25 。这与我们之前边缘优势比得到的结果似乎是相反的——忽略受害者种族,边缘优势比的估计值为1.45。这便是一个辛普森悖论的例子。
  • 是否判处死刑与受害者种族
> deathpenalty1[1,,]
       DeathPenalty
Victim  Yes  No
  White  53 414
  Black   0  16
> deathpenalty1[2,,]
       DeathPenalty
Victim  Yes  No
  White  11  37
  Black   4 139
> oddsratio(deathpenalty1[1,,])
  oddsratio
1       Inf
> oddsratio(deathpenalty1[2,,])
  oddsratio
1  10.33108

控制被告者种族得到的条件优势比暗示我们的结论与对应的边缘优势比似乎也是一致的。若受害者为白人,被告更容易被判处死刑。

此例中的辛普森悖论:忽略受害者种族,白人被告比黑人被告更容易被判死刑;给定受害者种族,黑人被告更容易被判死刑。

为什么会出现辛普森悖论呢?

9bfd2e045297fc7043458cfba3d553f4.png

这张图,横轴表示被告的种族,纵轴表示被判死刑的比例。标有W的圆表示受害者为白人,标有B的圆表示受害者为黑人,W与B的纵坐标分别代表了被判死刑的比例。圆的面积代表这个被告种族和受害者种族组合的样本数与总样本数的比例 [这个面积在我看来其实相当于在忽略受害者种族时给比例的加权,面积越大的圆权重越大]。

控制受害者种族我们可以比较拥有相同的圆心字母的圆。连接两个W的线与连接两个B的线斜率均为正——这表明给定受害者种族,黑人被告比白人被告被判死刑的概率更高。

可是当我们忽略受害者的种族,直接考虑被告者种族对死刑的边缘影响时,由于侵犯白人的白人样本数有

equation?tex=53%2B414%3D467 个,侵犯黑人的黑人样本量为
equation?tex=4%2B139%3D143 ,我们的总样本量一共才
equation?tex=674 个,那么对于每一个被告种族,被判死刑的比例会往大圆的圆心靠。样本量的不均匀使得连接边缘比例的直线斜率为负了——白人被告比黑人被告更容易被判死刑。

当然,对于这张表,我们还可以利用先前学过的

equation?tex=G%5E2%2CX%5E2 来进行独立性检验,可以利用Wald test,Score test,Likelihood ratio test来对单独的
equation?tex=%5Cpi_1%3D%5Cpi%5E%2A 进行检验,可以利用大样本的近似正态以及
equation?tex=SE%3D%5Csqrt%7B%5Cfrac%7Bp_1%281-p_1%29%7D%7Bn_1%7D%2B%5Cfrac%7Bp_2%281-p_2%29%7D%7Bn_2%7D%7D 来对
equation?tex=%5Cpi_1-%5Cpi_2%3D0 进行检验,可以利用
equation?tex=%5Clog%28%5Chat%7B%5Ctheta%7D%29 以及
equation?tex=SE%3D%5Csqrt%7B%5Cfrac%7B1%7D%7Bn_%7B11%7D%7D%2B%5Cfrac%7B1%7D%7Bn_%7B12%7D%7D%2B%5Cfrac%7B1%7D%7Bn_%7B21%7D%7D%2B%5Cfrac%7B1%7D%7Bn_%7B22%7D%7D%7D 来对
equation?tex=%5Ctheta%3D1 进行检验。

条件独立与边缘独立

如果在每张部分表中,

equation?tex=X
equation?tex=Y 是独立的,那么
equation?tex=X
equation?tex=Y 被称作给定
equation?tex=Z 时条件独立。此时,
equation?tex=X
equation?tex=Y 的所有条件优势比都等于
equation?tex=1
equation?tex=X
equation?tex=Y 给定
equation?tex=Z 时条件独立并不代表
equation?tex=X
equation?tex=Y 边缘独立。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值