统计在wikipedia上的解释是它是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学,被广泛的应用在各门学科之上,从自然科学和社会科学到人文科学,甚至被用来工商业及政府的情报决策之中。用比较土鳖一点的话来说就怎样有效利用数据来产生有用的信息,以便为决策提供依据。
三种信息
统计里有频率派和贝叶斯派两大势力,都是身怀绝技,互不相服,要说清楚他们之间千丝万缕剪不断理还乱的联系和差别,让我们先从最基本的来说起。统计要玩好,得把数据理解好。我们知道数据就是信息,在统计学里有三种信息。第一是总体信息,就是某一类总体能带给我们的信息,比如我们说收入是呈正态分布的,这就告诉我们中产阶级还是比较多的,纯屌丝和高富帅都是少数派,能够告诉我们收入在所有人这个整体上所表现出来的特征。第二种是样本信息,一般而言总体信息是很难知道的,我们不太可能知道所有人的收入,怎么办呢?我们可以只用一部分人的收入去估计猜测总体的情况,这一部分人就是从总体中抽取的样本。第三种信息是先验信息,在从样本里得到有用的信息之前,我们也会从自己的主观想法或者历史经验中对收入的分布有一个描绘,这种很主观的看法就是先验信息。基于以上三种信息进行的统计推断被称为贝叶斯统计,其与频率学派的主要差异在于是否使用先验信息。频率派认为这个先验信息太主观了,有时候根本没神马科学依据可言嘛,公说公有理,母说母有理,那搞出来的结论还有毛线用啊。当然他们在使用样本信息的方式上也有差别,贝叶斯们重视已经出现的样本,对没有出现的样本不考虑。而频率派们在考量各项指标的时候还要考虑那些没有出现的样本的情况。
我们知道统计中密度函数形式可表示为 ,是参数,不同的参数对应着不同的分布。在贝叶斯统计中密度函数则表示为 , 它表示在给定下的条件分布。当然在离散情况下,只需要把密度函数换成概率函数就可以了。在很多的时候我们的目标是想要了解的信息,频率派和贝叶斯在对待上面是很不相同的,频率派认为本身在客观世界中是一个确定的值,只是我们现在还不知道,我们可以通过现在已有的这些样本信息去估计它的值,一般可以用似然函数等方法进行估计。贝叶斯学派则从另外一个角度来看问题,他们认为本身并不是一个确定的值,它也是一个随机变量,可以取很多的值,取值的情况符合某种分布,所以我们要做的就是确定的这种分布,根据贝叶斯公式得到。这里x表示所有的样本, 即为利用先验信息得到的 的先验分布。先验分布表示的是人们在抽样之前对 的一种认识, 是后验分布,表示在抽样完成之后我们得到了新的知识,这时对 认识的一种调整。还是收入的例子,假设收入的分布符合高斯分布,这里包括均值和方差,我们假定方差已经知道了,这时我们需要去估计均值。在频率派看来,我们可以用似然函数去估计这个值。在贝叶斯眼中,我们可以先把这均值先看做是服从比如说(N1,N2)之间的均匀分布,然后根据观察的样本值去调整。显而易见,后验分布式三中信息的综合,里面是先验信息, 包含了样本信息和总体信息。
三大推断
在统计里有三大主要的推断,点估计、区间估计和假设检验。点估计,顾名思义就是去猜测一个未知参数是不是某个特定的值,比如我们可以估计高斯分布中均值这个参数是否等于 。很多时候精确到某个具体值的估计往往很困难,并且结果常常难以让人信服,这时候我们可以放宽条件,估计这个参数取值在某个区间的可能性大小,这就是区间估计。假设是一种检验标准,可以验证我们提出的想法是否合理。频率派和贝叶斯派在这三个问题上的处理方式有所不同,先看看老频们是怎样来处理这些问题的。
经典统计是这样认为的
点估计
:老频们一般使用似然函数等工具来得到点估计。假设我们现在能够得到的所有样本可表示为,则似然函数可以表示为。可以看到似然函数以关于参数的一个函数,它可以理解为我们现在收集到的这些样本它们能够出现在这儿的可能性的大小,我们要估计的参数的值就是使似然函数最大的。经典统计中点估计一个很重要的一个特征可表述为其是否具有无偏性。举个例子来说明,比如在收入的例子中总体是高斯分布,现在有观察到的样本值,用似然函数的方法我们得到均值的估计值是,这时我们计算
可见估计值的期望等于原参数,这时我们说这个估计是无偏的。
需要注意的一点是这儿的期望是相对于样本的分布,对样本求期望,与后面所讨论老贝们对参数所有可能的取值求期望是不同的。对样本求期望其对象是样本,对参数求期望其对象是参数,这里可见他们的本质差别。
区间估计
:首先我们需要找到一个与参数相关的统计量T,设法找出T和的某一函数,其分布F要与无关,S称为枢纽变量;对任何不等式可以改写为等价的形式,其中A和B与无关。取F的上分位点值和上分位点值,有,因此,根据前面所说,a对应着,b对应着,所以此时计算出来的[A,B]就是参数的一个置信系数为的区间估计。这个有点绕,还是举收入的例子看看枢纽变量是什么样子,假设参数未知,已知,求的区间估计,首先构造枢纽变量服从高斯分布N(0,1),,然后就可以用前面的方法计算出的区间估计跟有关。跟后面贝叶斯的可信区间相比较会发现,置信区间的观点常常让人非常费解。
假设检验
:一般地说,对总体某项或某几项作出假设,然后根据样本对假设作出接受或拒绝的判断,这种方法称为假设检验。如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设,其流程图可表示如下
在假设检验中通常有原假设和备择假设,原假设和备择假设是不相容的,通过某种标准然后得出结论接受原假设或者接受备择假设。存在单尾检验和双尾检验两种形式,其原假设和备择假设分别可为表示为
双尾检验:
单尾检验:或者
检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝;反之,差异不显著,接受。双尾检验的示意图如下
差异 | 临界点 | 判断 |
| C | 拒绝 |
| C | 接受 |
怎样确定临界点C呢?
接受或拒绝,都可能犯错误,我们先来看看存在的两类错误
第一类错误——弃真错误,发生的概率为
第二类错误——取伪错误,发生的概率为β
检验决策 | 为真 | 非真 |
拒绝 | 犯第一类错误(α) | 正确 |
接受 | 正确 | 犯第二类错误(β) |
显而易见,和是矛盾的统一,大就小,小就大
基本原则:力求在控制,使尽量小的前提下减少。叫做显著性水平,取值:0.1, 0.05, 0.001, 等。如果犯第一类错误损失更大,为减少损失,值取小;如果犯第二类错误损失更大,值取大。
确定了,就确定了临界点C。我们来看看是怎么确定C的。在收入的例子中,假定未知,已知,类似于前面的置信区间,我们构造统计量 服从高斯分布N(0,1),自然当取时, 也服从高斯分布N(0,1)。 如果我们的原假设为, 那么小概率事件发生的概率可以表示为
因为服从高斯分布,所以只要确定了小概率事件发生的概率的值,也就是发生第一类错误的概率,查表即可解得C。然后我们就可以根据前面提到的是否大于C来做出判断。
假设检验与置信区间的关系
:假设检验与置信区间有密切的联系,我们往往可以由某参数的显著性水平为的检验,得到该参数的置信度为的置信区间,反之亦然。例如,显著性水平的均值 的双侧检验问题:与置信度为的置信区间之间有着这样的关系;若检验在水平下接受 ,则的的置信区间必须包含 ;反之,若检验在水平下拒绝,则的的置信区间必定不包含。因此,我们可以用构造的置信区间的方法来检验上述假设,如果构造出来的置信区间包含,就接受;如果不包含就拒绝。同样给定显著水平,可以从构造检验规则的过程中,得到的置信区间。
贝叶斯们的想法
点估计
:前面提到过老贝们关注后验密度函数,我们知道我们拥有要估计的参数的一个分布,这里有很多的推断形式,比如取最大的那个值叫做最大后验估计,取的中位数叫做后验中位数估计,取的期望值叫做后验期望估计。这三种情况一般是不相同的,但往往也可以统称为贝叶斯估计。假设我们对参数的估计值为,则的后验均方差可表示为,显而易见,当为后验期望时,后验均方差最小。在实际情况中往往可以选则使用后验期望估计,因为这样更加平滑一点,结果更靠谱一点,能够避免一些极端情况带来的偏差。
区间估计
:在很多情况下,我们往往感觉点估计不是很靠谱,这时我们可以把值估计放大到某一区间,这样的平滑效果使用我们的推断说服力更强,很多时候也更容易让人理解。当参数的后验密度函数获得之后,区间估计就是非常easy的事情了,比如我们非常容易计算估计值落在某个区间[a,b]的概率,反之给定了我们就很容易找到满足条件的区间[a,b],这样的区间成为贝叶斯可信区间,其与频率派中的置信区间虽然都是同类的概率,但是却存在本质的区别:因为在贝叶斯眼中是随机变量,我们可以说贝叶斯可信区间表示的是落入这个区间的概率是,但是置信区间就不能这样说,因为频率派们认为只是一个数,哪里存在神马概率啊分布啊之类的东东,所以要么在区间里面,要么在区间外面,置信区间可以理解为我们重复做了N此实验,有次实验结果得到的估计值在这个区间里面,其余的都在区间外面。显然贝叶斯的观点直观简单容易理解,置信区间太绕了,在现实使用中很多使用者其实是按照贝叶斯的观点去理解的。此外,置信区间的求解也是非常麻烦,需要通过构造枢纽变量去求解,这非常需要技巧,相比而言,贝叶斯的方式要简单的多。
假设检验
:在贝叶斯中做假设检验非常之简单,只需要比较原假设和备择假设的后验概率,哪个大就接受哪个。比如现在,那么我们可以计算后验概率和后验概率,若大,就接受,拒绝,反之亦然。
先验分布
最后讲讲怎么根据一些历史经验等先验信息去确定先验分布。当参数空间中只有有限个值时,这时可以主观的考虑每个值出现的概率来确定的分布。当是连续的时候,要确定其密度函数就比较困难了,主要有以下几种方法:
最简单的当然是直方图,把的所有可能取值划分成有限个区间,计算每个区间对应的概率,这样的分布就是每个区间对应的概率。
第二种方法就是选定参数的密度函数形式,比如说服从高斯分布或者二项分布等等,当然这个时候这个密度函数中又包含了一些未知的参数,这些参数就叫做超参数。对超参数的估计可以用前面参数估计的一些方法,当然也可以用统计学习里Cross Validation等方法来确定。顺便提一下,当后验密度函数和先验分布具有相同的形式是,比如都是服从高斯分布或者都是服从beta分布,那么这时的先验分布可称为共轭先验分布。后验分布有很多优良的特性,比如计算方便,容易理解,在实际中常常使用。
定分法和变分法。定分法就是把参数空间逐次的划分为长度相等的小区间,然后估计每个小区间上的概率。比如的取值范围为(0,1),先估计和的概率,然后估计的概率,以此类推。变分法就是把参数空间依次分为机会相等的小区间,这里的分点一般由领域专家给定。比如的取值范围为(0,1)时,专家可以先估计其在和的概率相等,然后对每个小区间以此类推。最后的分布就是每个区间对应的概率。
在实际情况中,我们最初时往往对对一件事情丈二和尚摸不着头脑,这时候没有先验信息可用,为了解决这种问题,老贝们提出了无信息先验分布。可以使用取值空间上的均匀分布,这就叫做同等无知 。比如的取值范围为[0,1],这时可以去[0,1]上的均匀分布。但是这个时候问题也来了,频率学家就会抨击说既然本身没有信息,可以取均匀分布,那么我们也可以认为也是没有任何信息吧,并且这时候的取值范围也在[0,1]上,如果这时为什么不让取[0,1]的均与分布呢,那么这时本身就不是[0,1]上的均与分布了。还有当取值为无限集时,这时无法求的其值域上的均匀分布。对于后面一种情况可以使用广义先验密度等技术手段来得到最终正确的结果。