关注我,每天学习一点点,每天进步一点点!
事情的经过大概是这样的,一大早起来,有个数据分析群有群友在问一个问题,群友问是否考察的是辛普森悖论?
问题是:A、B两国交战,海军死亡率为6%,居民死亡率是15%,于是政府号召人们参军,这个数据结论是否成立?为什么?
这题到底怎么分析呢?对于数据分析来说,到底考察什么?
群友问我,是不是考察辛普森悖论,其实我当时回答了是。我考虑的角度是,虽然海军的死亡率低于平民,但是海军的人数更多,海军占的比例更大,所以实际海军死亡的人数要远大于平民。
后来,我考虑了一下,感觉回答的不严谨,总感觉哪里有问题,没有找到问题的核心,于是,我决定上网搜搜。
很快,我在网上搜了类似的题:
在美国与欧洲某国作战期间,美国海军为招募兵员,曾经在全国广为散发海报。当时最有名的广告是这样说的:美国海军的死亡率比纽约市民的死亡率还要低。面对质询,负责的海军官员解释说:“根据统计,现在纽约市民每年的死亡率是16%,而尽管是战时,美国海军士兵的死亡率也不过9%。”如果以上资料为真,则以下哪项能够解释上述看起来很让人怀疑的结论?()
A、在战争期间,由于有部分海军负担运输任务,并不直接参战,因而海军士兵的死亡率要低于陆军士兵
B、上述统计中的纽约市民包括生存能力较差的婴儿、老人和病人等
C、由于美国海军有一定实力,作战时伤亡较小,敌军更喜欢攻击没有什么抵抗能力的普通市民
D、美国海军的这种宣传主要是为了鼓动人们入伍,所以,其中不免有夸张的成分
其实,这个上面的题应该是这道题的变种,不过考察的点都一样。
我先说下答案,这道题的正确答案是:B。
因为参加海军的人都是年轻力壮的青年人,生命力较强,自然死亡的人数是很小的,而纽约市民中包括生存能力较差的婴儿、老人和病人,自然死亡人数多。所以,即使在战时,海军的死亡率也是低于纽约市民死亡率的。
到这里,其实问题应该就明朗的,考察的点还是辛普森悖论,这里其实主要考察的点就是统计学里面的陷阱,在因果关系里,量与质是不等价的,但是量比质更容易测量,所以人们总是习惯用量来评定好坏,而该数据却不是重要的。
声明:【原创文章,若要转载,请联系作者,谢谢!】