“文不如表,表不如图”,表格侧重于提供具体数据,而图表弱化了具体数据,更侧重于表现数据中蕴藏的某种规律(如分布、趋势、比较、构成、关系、层级、变化等)。
一、表格法
1.单变量
(1)无序分类型变量:频数分布表/相对频数分布表/百分数频数分布表
(2)有序分类型变量、数值型变量:频数分布表/相对频数分布表/百分数频数分布表/堆积频数分布表
2.多变量
(1)交叉分组表
用两个或两个以上的维度进行交叉,生成一个汇总的交叉分组表,以显示两个变量的相关性。
(2)辛普森悖论
a.什么是辛普森悖论
所谓辛普森悖论是指,对两组数据总体分析得出的结论,跟分别对两组数据细分后的数据分析得出的结论不同。则称为辛普森悖论。
例1:服药的患者治愈率低于没服药的,但是若对服药和没服药的患者按性别细分发现:对于女性,服药的治愈率高于没服药的,对于男性,服药的治愈率也是高于没服药的。
例2:球员A的总体投篮命中率高于球员B,但是对球员的投篮细分为2分球投篮和3分球投篮发现:球员A的二分球和三分球命中率都低于球员B
...
其实在现实生活中,辛普森的例子很普遍。早在20世纪初就有人发现并讨论过这一现象,但直到1951年,辛普森在他的论文中正式阐述了这个现象,后来便以他的名字进行命名,即辛普森悖论。
b.辛普森悖论如何产生
下面通过数学公式推导来说明辛普森悖论产生的原因:
法官A和法官B的总体维持判决率看,法官A<法官B:
法官 | 维持判决数 | 推翻判决数 | 总判决数 | 维持判决率 |
法官A | 129 | 21 | 150 | 86% |
法官B | 110 | 15 | 125 | 88% |
但对两位法官判决的案件细分为民事庭、市政庭后分别对比,法官A在民事庭和市政庭的维持判决率都比法官B高,这就是出现“辛普森悖论”现象了。
法官A:
案件类型 | 维持判决数 | 推翻判决数 | 总判决数 | 维持判决率 |
民事庭 | 29 | 3 | 32 | 90.62% |
市政庭 | 100 | 18 | 118 | 84.75% |
汇总 | 129 | 21 | 150 | 86% |
法官B:
案件类型 | 维持判决数 | 推翻判决数 | 总判决数 | 维持判决率 |
民事庭 | 90 | 10 | 100 | 90% |
市政庭 | 20 | 5 | 25 | 80% |
汇总 | 110 | 15 | 125 | <