应用数理统计的实质(个人理解):把我们遇到的各种随机现象数字化后赋予其一定的概率分布,进而进行相关处理,分析。典型的应用如参数估计,假设检验,回归分析,方差分析与正交设计,判别分析和相关分析。下面简略介绍各种应用的大致思路。
不管我们研究什么随机对象,我们都是根据其样本推断其随机特征。样本实际上就是抽样,对抽样的数据进行初频整理,我们便得到了样本的均值,样本方差等统计量。这些统计量及其运算组合而成的统计量的分布称为抽样分布。常用的抽样分布有χ^2(卡方分布),t分布及F分布,当然,这些分布的老祖宗还是正态分布,这些分布也不过是正态分布经不同运算组合得到的。这些分布的分布函数或概率密度都很复杂,所以要通过积分计算相关概率是很麻烦的事。所以,人们编布了分位点表,通过分位点表可以直接查得某段区间内的概率。
通常,我们研究的随机对象我们往往是知道其分布或能假设其分布的,分布已知,概率密度函数或分布函数就能写出来,但其中的参数我们是不知道的。这个时候我们就要根据获得的样本统计量去估计这些参数的值,这类问题就叫做参数估计问题。常用的方法是矩估计和极大似然估计。矩估计通过样本矩和随机变量各阶矩的关系来进行参数矩计。极大似然估计基于样本中既然取到了某组值,那么这组值发生的概率是比较大的,所以我就调整参数的值使取得这组值的概率得到最大,使这个概率得到最大的参数值就作为参数估计值。当然,各种估计方法有好有坏,所以我们必须要对各种方法进行评判。评判的方法有多种。最简单的均方误差(MSE
假设检验是先假设总体的分布形或总体的参数具有某种特征,然后利用样本提供的信息来推断所提出的假设的正确性。当样本提供的信息使统计量落入拒绝域,则拒绝原假设,接受备择假设;如果没落入,则接受原假设。为了把这一部分说清楚,引入了很多基本概念,例举如下:
⑴原假设和备择假设
在一个假设检验中,常常涉汲到两个假设,所要检验的假设称为原假设,记为H_0,而与H_0不相容的假设称为备择假设。
⑵检验统计量
由样本提供的信息可以计算出其值,这个值是否落在拒绝域内决定是接受H_0还是否定H_0。
⑶检验函数
用φ(x)表示,它的期望,即E[φ(x)]用来衡量拒绝H_0的概率大小。当H_0为真时,它的大小表示犯第一类错误,即弃真错误的大小;当H_0为假时,显然,它越大越好(也就是下面要说到的势)。
⑷检验的势
H_0不成立时拒绝H_0的概率,称为检验的势,显然势越大越好,
⑸第一类错误和第二类错误
第一类错误:H_0为真却拒绝H_0,即弃真错误
第二类错误:H_1为真却接受H_0,即取伪错误
⑹检验水平α
控制犯第一类错误的概率在α以内。
同一个检验问题,同样有不同的检验方法。根据奈曼-皮尔逊提出的检验思想,我们可以把犯第一类错误的概率刚好控制在最大允许值α上,在这个条件之下,再去找寻犯第二类错误概率最小的检验。如果检验问题是:
H_0: θ=θ_0 ,H_1: θ=θ_1
H_0: θ∈θ_0 ,
MPT和UMPT的区别就在于假设上,前者只是对一个固定的参数;后者的参数是一个范围。
相关的定理也给出了MPT和UMPT的具体求法。
方差分析与正交设计是数理统计的基本方法之一。在科研和生产中,影响一个事物的因素有多个。怎样找出对结果具有显著影响的因素,这就是方差分析与正交设计要解决的问题。首先要进行试验,怎样才既能反映出感兴趣因素的作用,又使试验次数尽可能少,这就是正交设计的目的。接下来,如何充分利用试验数据进行分析,推断某个因素的影响是否显著就是方差分析要做的事。
在方差分析中,总是假定要研究因素的不同水平对应的总体相互独立,且都服从正态分布。由于除因素外,试验的其他条件都认为相同,这样就可以假设每个总体的方差相同。因此推断N个总体是否具有相同分布的问题就归为检验N个具有相同方差的的正态总体其均值是否相筀产。实际上,方差分析就是检验若干个具有相同方差相互独立的正态叫体,它们的均值是否相等的一种统计方法。当然,检验均值是否相等,若是两个正态总体,我们可以用前面说过的假设检验的方法进行t检验,但是当总体个数超过3个时,犯第一类错误的概率变得很大,所以这时候就不能进行t检验了,就该用这里介绍的方差分析了。
方差分析主要分为单因素方差分析和双因素方差分析。在实际问题中,影响试验结果的因素往往都不止一个,而是两个或更多。此时,要分析因素的作用,就要用到多因素试验的方差分析。一般来说,在方差分析中,只讨论两个因素的方差分析,至于更多因素的问题,用正交试验法比较方便。在两个因素的试验中,不但每一个因素单独对试验起作用,往往会两个因素联合起来起作用。这种作用叫做这两个因素的交互作用。
正交设计是利用“正交表”进行科学地安排与分析多因素试验的方法。它的主要优点是:在很多试验方案(也称试验条件)中挑选出代表性强的少数试验方案,并通过对这少数试验方案的试验结果的分析,推断出最优方案,同时还可以作进一步的分析,得到比试验结果本身给出的还要多有有关各因素的信息。两个因素的方差分析的计算已经比较复杂,当因素及水平数较多时,试验次数是惊人的。对这么多试验数据进行统计分析计算,也将是非常繁重的任务。此时如果用正交设计来安排试验,则试验次数会大所大减少,而统计分析的计算也将变得简单。
在生产、科研和日常生活中经常遇到需要判别的问题。根据样品x的观测值判定其归属,这种统计方法称为判别分析。判别分析还是数据分析、机器学习、模式识别等应用领域的重要理论基础。
判别分析主要有距离判别、贝叶斯判别、费希尔判别等几种常用方法。
距离判别的基本原理是:首先对样品到总体之间的距离进行合理规定,然后依照“就近”的原则判定样品的归属。
距离判别法用非常直观的原理(就近判别原理)建立了判别规则。这种方法易于理解。计算简单,且可以不涉汲总体的分布类型,因此适用面较广。但这种方法也有不足,未考虑各个总体各自出现概率的大小,同时也未涉汲错判所造成损失的影响。为了克服这个问题,就产生了贝叶斯判别法。