大数据环境下的假设检验问题比较复杂,目前还未详细深入了解,但其思想还是源于经典假设检验理论,故在此先对经典假设检验理论记录一二。
1.假设检验方法的作用
实际问题中很多时候需要通过样本去作推断,由于样本带有随机性,基于我们对总体的认知,有时并不确定该推断是否可信(或者说可靠),或者说偏差的程度如何,此时就可以用到假设检验方法,在我们认知范围内去判断该推断是否可信(或可靠)、偏差程度。之前看到过一段话,说假设检验方法背后的哲学思想是:“肯定一件事情有时候是很难的,但是否定一件事情就容易得多”(挺有意思的一句话,就像人们常说的“一世清明毁于一旦”啥的),该思想在概率论中,即为“小概率事件理论”。假设检验的实施过程就是利用小概率事件理论去判断推断是否可信。
2.假设检验问题的一般处理步骤
(1) 明确要处理的问题,问题的回答只能是“是”或者“否”
(2) 设计适当的观察或试验以取得样本X,X的概率分布必须与所提的问题有一定联系
(3) 把问题的一种回答(例如“是”)作为一个命题,将该命题转化到样本X的分布上,这样即得到关于后者的一个等价命题 , 称为假设
(4) 依据样本X的具体值,按照一定的规则,作为接受或否定假设的决定(即检验过程)
3.检验方法
当提出合适的假设后,接下来的工作主要是如何去检验提出的假设。检验的方法有很多种,每种方法一般都是针对某一方面问题而针对性提出的,下面介绍几种比较重要的检验方法。
3.1 拟合优度检验
拟合优度检验方法是K.Pearson提出的。K.Pearson认为统计的任务是对未来进行预测,故需要得到样本数据的统计模型,也即是一条分布曲线,所以他提出了矩估计法来确定这样一条分布曲线,但是得到的分布曲线对样本的拟合程度该如何判断呢?为此K.Pearson引进了一个统计量——统计量k,
,统计量k反映样本
与所拟合的分布曲线
间的偏离,k越小,拟合程度越好,反之亦然。从一组样本中,可以计算出统计量k的值
,也许
会很小,总体上觉得拟合程度不错,但是还是存在这样一个问题:统计量k的值取到
这样的程度,可以认为拟合程度比较好、可以认为样本
是来自于分布曲线
中吗?为了解决这个问题,K.Pearson证明了一个极限定理,通过该定理可以计算出概率
,该定理为
定理:若样本是来自于分布曲线
,则当样本大小
时,统计量k的分布收敛于
,即自由度为r-1的
分布。
至此为止,文中还未引入统计量k的定义,这个后面再引入。越大(小),则表明产生像
这么大(小)的值的概率越大(小),因此
的出现并不稀奇(比较稀奇),基于此,可以做出如下假设:
样本
是从具有分布
的总体中抽样得到
检验时,指定阈值,若
,则否定
;若
,则接受
。现在开始引入统计量k,文中只讨论总体分布曲线
完全已知的情况,对分布确定、带有参数的情况不予讨论,感兴趣的同学可以自行进一步研究。当样本X为一维时,X只取有限个不同值
,理论分布