俗话说得好:“夜里若是三秒郎,原谅草帽戴不完”。王二狗今年刚满50就觉得有点力不从心。他听说最近新出了一款阿三大力丸,能增强耐久度,让你做到“一小时真男人”。于是二狗决定去求证一下“是否该大力丸能增强持久度”这个问题。
二狗所在的村庄很奇怪,男人除了年龄之外,其他和持久度有关的特征都一样。也就是说在不吃药的情况下,只有年龄能影响他们的持久度。
这一天,二狗为了考察药效这个问题,来到了村里唯一一个这种药的专卖店,只要有人进这个店,无论有没有买,他都凑上去问这个人是否吃了这个药以及最近一次的持久度(没错!这个村就是喜欢计时,就是这么变态)。一天下来,他整理了如下表格(1代表吃了,0代表没吃):
对象 | 年龄 | 是否吃了大力丸 | 持久度(分钟) |
A | 55 | 1 | 15 |
B | 60 | 1 | 10 |
C | 45 | 1 | 8 |
D | 52 | 1 | 20 |
E | 57 | 1 | 16 |
F | 62 | 1 | 5 |
G | 30 | 0 | 30 |
H | 40 | 0 | 18 |
I | 50 | 0 | 25 |
二狗一看,吃了大力丸的平均持久度是12.3分钟,没吃的平均持久度是24.3分钟。这尼玛越吃越不行???“看来我是没机会了“,二狗一边想着一边要去爬山。这时路上村长,村长是个有学识的人,一看他的这个调查报告就指出了问题所在:你在专卖店调查,去的人大多都是吃药的人,据村里一些村姑的反应,很多没去买药吃药的人也不行啊。你这个样本里面都没有包含这些人,所以你这个调查是有问题的。好像那些喜欢装高深的人把这个叫做样本选择偏差, Sample Selection Bias !, 而且啊….“
还没等村长说完而且,二狗又觉得自己有希望了,赶紧跑回家去修改自己的调查过程。路上他突然觉得村长有问题:村姑为啥会和他反应这问题?
来不及多想,第二天二狗就展开了第二次调查,这次,他不去专卖店了,在村里随机找人问,然后得到了以下的表格(对,没错,我懒得编了,就在下面多加了几个,就假设这是重新调查的吧)
对象 | 年龄 | 是否吃了大力丸 | 持久度(分钟) |
A | 55 | 1 | 15 |
B | 60 | 1 | 10 |
C | 45 | 1 | 8 |
D | 52 | 1 | 20 |
E | 57 | 1 | 16 |
F | 62 | 1 | 5 |