在列联分析中的辛普森悖论

情景:

 在列联分析中有时会出现辛普森悖论,简述什么是辛普森悖论,它产生的原因是什么?如何防范辛普森悖论。

  • 什么是辛普森悖论?

在分组比较中都占优势的一方,在总评中有时反而是失势的一方。(维基百科)

边缘关联和条件关联有相反结论的情况称作辛普森悖论。(《属性数据分析引论》)

  • 产生原因?

高维列联中确定两个基本分类变量,其他变量的每一层都是一个二维列联。其他变量合并起来,也是一个二维列联
根据研究目的,通常将高维列联压缩为多个二维列联进行分析。在进行高维列联压缩过程中,如果某些被压缩变量的条件相关和边际相关方向不一致,就可能会导致辛普森悖论。

  • 如何防范辛普森悖论?

为了避免在数据降维过程中出现辛普森悖论,需要对数据进行辛普森悖论检验。实质就是进行分层数据进行卡方检验。

进行Cochran-Mantel-Haenszel(CMH)检验

  1. 原假设:两个名义变量在第三个变量每一层中都是独立的
  2. 备择假设:分层不独立

CMH条件量构造原理:用每一层的样本量作为权重,计算加权卡方统计量

  • 辛普森悖论案例

1976-1987年弗罗里达州共有674个涉嫌杀人案件,凶手种族与死刑判决情况如下

 

 白人黑人合计

死刑

(百分比)

53

(10.97%)

15

(7.58%)

68
非死刑430176606
合计483191674

 

如同不看其他数据,能大概分析出,黑人的死刑率比白人低,进而推导出,种族问题在该州已经得到了极大的改善,然而身边的套路太多,一不小心就会掉下去,当把另外一组数据摔出来,会把做数据的人啪啪打脸,请看

被告人为白人

 被害人为白人被害人为黑人

死刑

(百分比)

53

(11.3%)

0

(0%)

非死刑41416

被告人为黑人

 被害人为白人被害人为黑人

死刑

(百分比)

11

(22.9%)

4

(2.8%)

非死刑37139

被告是白人,如果被害人是白人,走正常流程,如果被害人是黑人……此处省略。

被告是黑人,如果被害人是白人,死刑占比22.9,是上边的2倍以上,被害人是黑人,也出现了判断为死刑的出现。

所以通过改组数据分析得出,该州的种族问题还很严重,并不是想的那么乐观。
 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

千面而一言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值