这里会罗列一些统计学中的检验方法,当然顺序以笔者遇到的为准。
1.方差分析
1.1 概述
对于均值的检验,一般分为以下几种情况:
某样本均值与常数的比较
两个样本均值的比较
两个以上样本均值的比较
对于前两种检验,用t检验和z检验完全可以handle,第三种也可以用t/z检验两两进行,但是毕竟耗时,用方差分析就可以解决这个问题了。
这个问题面试滴滴的时候有被问到,立志做数据科学家的朋友们,还是学习一下。
比较常用的方差分析方法包括:单因素方差分析、多因素方差分析、协方差分析、多元方差分析、重复测量方差分析、方差成分分析等。
1.2 常用术语
因素
因素是方差分析的研究对象,是一个独立的变量,比如饮料的不用颜色就是因素。
水平
因素的取值就是水平,比如饮料颜色的红、黄、蓝、绿就是水平。
控制变量
方差分析中可以人为控制的变量,比如饮料的颜色。
随机变量
与控制变量相对应就是不可以人为控制的变量。
观察变量与观察值
方差分析中受控制变量和随机变量影响下观察的目标成为观察变量,观测得到的数值就是观察值。饮料再不同颜色的销售额就是观测变量,具体的取值就是观察值。
1.3 单因素方差分析原理
进行方差分析的要满足两个前提:
总体服从正态分布
样本满足方差齐性
方差分析的目的是检验各个样本的均值是否相等,原假设是样本均值相等,备择假设是样本均值不相等。一般来说造成均值差异的原因有两个:
因素水平不同造成的差异,成为系统性误差。
承接饮料这个案例,饮料颜色就是系统性误差。系统性误差用组间方差来衡量,当然组间方差有可以衡量随机性误差,但主要是为了衡量系统性误差。
样本抽样随机性造成的误差,成为随机性误差。
同样,饮料在不同商场的销售额也不同,这是随机性误差。随机性误差用组内方差来衡量。
如果因素水平对观察变量影响不大,那么组间方差只有随机性误差的影响,组间方差和组内方差的比接近于1,相反则大于1,当这个比值大于某个值的时候我们就可以得到显著性差异的结论。方差分析就是通过比较方差做出接受或拒绝原假设的结论。
1.4 单因素方差分析案例
饮料案例,我们要观察饮料的不同颜色对销售额是不是有显著的影响,基础数据如下: