假设检验的定义
假设检验:先对总体的某个指标提出某种假设,然后利用样本数据判断假设是否成立。在逻辑上,假设检验采用了反证法,即先提出假设,再通过适当的统计学方法证明这个假设基本不可能是真的。(说“基本”是因为统计得出的结果来自于随机样本,结论不可能是绝对的,所以我们只能根据概率上的一些依据进行相关的判断。)
假设检验依据的是小概率思想,即小概率事件在一次试验中基本上不会发生。也就是说当假设的可能性小于认定的某一标准的话,我们拒绝该假设,反之我们则说没有足够的证据拒绝该假设。
如果样本数据拒绝该假设,那么我们说该假设检验结果具有统计显著性。一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。
假设检验的术语
零假设(null hypothesis):是试验者想收集证据予以反对的假设,也称为原假设,通常记为 H0。
例如:零假设是测试版本的指标均值小于等于原始版本的指标均值。
备择假设(alternative hypothesis):是试验者想收集证据予以支持的假设,通常记为H1或 Ha。
例如:备择假设是测试版本的指标均值大于原始版本的指标均值。
双尾检验(two-tailed test):如果备择假设没有特定的方向性,并含有符号“≠”,这样的检验称为双尾检验。
例如:零假设是测试版本的指标均值等于原始版本的指标均值,备择假设是测试版本的指标均值不等于原始版本的指标均值。
单尾检验(one-tailed test):如果备择假设具有特定的方向性,并含有符号 “>” 或 “<” ,这样的检验称为单尾检验。单尾检验分为左尾(lower tail)和右尾(upper tail)。
例如:零假设是测试版本的指标均值小于等于原始版本的指标均值,备择假设是测试版本的指标均值大于原始版本的指标均值。
指标(indicator):用作比较的一个标准。
例如:指标是一天内用户在某页面停留时间的均值。
检验统计量(test statistic):是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,它需要对数据分布的密度函数积分来获得。
例如:Z值、t值、F值、卡方值。
显著性水平(significance level):错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用α表示。
例如:在5%的显著性水平下,样本数据拒绝原假设。
置信度(confidence level):正确接受零假设的概率,即1-α。
例如:95%的置信度是有95%的把握认为测得的样本均值非常接近总体的期望。
统计检验力(power):正确拒绝零假设的概率,即1-β。当检验结果是没有足够的证据拒绝零假设时,人们更关注统计检验力,统计检验力越大,犯错误的可能性越小。
临界值(critical value):与检验统计量的具体值进行比较的值。
临界区域(critical region):拒绝原假设的检验统计量的取值范围,也称为拒绝域(rejection region),是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么我们拒绝原假设。
置信区间(confidence interval):包含总体参数的随机区间。我们用样本来对总体进行估计,如果只是一个估计值的话,那就称为点估计。但是每次随机抽样计算出的结果都不一样,因此点估计不一定准,这时用