假设检验的定义
假设检验:先对总体参数提出某种假设,然后利用样本数据判断假设是否成立。在逻辑上,假设检验采用了反证法,即先提出假设,再通过适当的统计学方法证明这个假设基本不可能是真的。(说“基本”是因为统计得出的结果来自于随机样本,结论不可能是绝对的,所以我们只能根据概率上的一些依据进行相关的判断。)
假设检验依据的是小概率思想,即小概率事件在一次试验中基本上不会发生。
如果样本数据拒绝该假设,那么我们说该假设检验结果具有统计显著性。一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。
假设检验的术语
零假设(null hypothesis):是试验者想收集证据予以反对的假设,也称为原假设,通常记为 H0。
例如:零假设是测试版本的指标均值小于等于原始版本的指标均值。
备择假设(alternative hypothesis):是试验者想收集证据予以支持的假设,通常记为H1或 Ha。
例如:备择假设是测试版本的指标均值大于原始版本的指标均值。
双尾检验(two-tailed test):如果备择假设没有特定的方向性,并含有符号“≠”,这样的检验称为双尾检验。
例如:零假设是测试版本的指标均值等于原始版本的指标均值,备择假设是测试版本的指标均值不等于原始版本的指标均值。
单尾检验(one-tailed test):如果备择假设具有特定的方向性,并含有符号 “>” 或 “
例如:零假设是测试版本的指标均值小于等于原始版本的指标均值,备择假设是测试版本的指标均值大于原始版本的指标均值。
检验统计量(test statistic):用于假设检验计算的统计量。
例如:Z值、t值、F值、卡方值。
显著性水平(level of significance):当零假设为真时,错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用α表示。
例如:在5%的显著性水平下,样本数据拒绝原假设。
置信度(confidence level):置信区间包含总体参数的确信程度,即1-α。
例如:95%的置信度表明有95%的确信度相信置信区间包含总体参数(假设进行100次抽样,有95次计算出的置信区间包含总体参数)。
置信区间(confidence interval):包含总体参数的随机区间。
功效(power):正确拒绝零假设的概率,即1-β。当检验结果是不能拒绝零假设,人们又需要进行决策时,需要关注功效。功效越大,犯第二类错误的可能性越小。
临界值(critical value):与检验统计量的具体值进行比较的值。是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,它需要对数据分布的密度函数积分来获得。
临界区域(critical region):拒绝原假设的检验统计量的取值范围,也称为拒绝域(rejection region),是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么我们拒绝原假设。