一、关于统计陷阱的一些角度
1.内在样本有偏
其根本问题是:样本是否足够代表总体?
其实际问题是:并非随机抽样
此类基本是民意调查难以避免的坑。
案例1:“1924级的耶鲁毕业生平均年收入有25111美元”
——这是问卷调查典型特征,能联系上的是一部分人,那些不能联系上的可能是年收入低的;能收回问卷的是一部分人,那些不寄回问卷的可能是年收入低的。再者,关于收入问题,大概大部分人都不会说实话或者虚高。
案例2:“以前曾经搞过一项旨在了解杂志阅读量的上门调查,其中的一个主要问题是:你和你的家人阅读什么杂志?当将调查结果制表并分析后发现:大部分的人喜欢《琴师》(Harper’s),而没有多少人喜欢《真实故事》(True Story)。但出版商提供的数据却很明显地表明:《真实故事》的发行量是几百万份,而《琴师》只有几十万份。”
——这个调查我的理解是,被询问的人不一定是有购买意愿的人(文中说明是上门走访美国各式各样的居民区,但是我们的购买者其实只是有购买力有购买意愿的人甚至只是购买过的人);并且“喜欢”这种意愿和是否购买完全是两个事情,当顾客做购买选择时会有诸多影响因素,价格、此时此刻心情、是否觉得有必要等等。另外,不同性质的杂志也没得比。
常见如街边调查、电话调查等都会存在有偏,一条街道是否能代替总体?那些不接收调研的受访者被代表了?调查员对受访者的挑选也有这样那些的观念。
2.精心挑选的平均数
其根本问题:什么时候选什么平均数(均值、中位数、众数)具有更好的描述性?
案例3:5月17日,腾讯发布了2017年第一季度业绩报告。财报显示,腾讯一季度总收入为495.52亿元,同比增长55%;经营盈利为192.72亿元,同比增长44%;期内盈利为人民币145.48亿元,同比增长57%;净利润率为29%,与去年持平。此外,财报还显示,腾讯截至3月31日共有39258名员工,第一季度平均月酬金为6.3万元。
——这种被平均的故事经年不息。。。像工资这种,基本都是右偏分布,平均数受右边的值影响很大,平均数>中位数>众数。这种状态说平均值能说明啥问题呢?啥都说明不了。此时用中位数来表达相