参数估计和假设检验
经验分布函数
卡方分布、t分布、F分布
Q-Q图
图片来源于清风数学建模课件
图片来源于司守奎数学建模方法与应用
画Q-Q图:
确定了样本数据和要检验符合的分布之后,用matlab工具箱中的qqplot函数,这个MATLAB函数显示了样本数据x的分位数与正态分布的理论分位数之间的分位数图。
区间估计
有时要估计参数的一个可能取值范围,并指出参数落入该范围的可能性有多大,这类问题叫做参数的区间估计。
矩估计
用样本数字特征作为相应的总体数字特征的估计量
最大似然估计
根据实际推断原理:如果p可供作为估计值的选择有多个,自然应该选择使样本值出现概率最大的一个值作为p的估计。
假设检验
参数检验
如果已经知道了总体分布,要根据样本来对分布参数进行检验可通过以下步骤进行假设检验。
基本步骤
- 根据问题的要求建立原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1
- 构造检验统计量,并确定其在原假设为真时的分布
- 针对给定的显著性水平 α \alpha α,查表确定原假设的拒绝域形式
- 利用样本观测值,计算检验统计量的值
- 判断检验统计量的值是否落在拒绝域上,再判断是否拒绝原假设
检验方法主要有z检验法、t检验法、卡方检验、F检验等
分布拟合检验(非参数检验)
前面所提到的z检验、t检验等,都是基于假定已知总体的分布类型的前提下,根据样本来对分布参数进行检验。但是在许多实际问题中,往往对总体的分布类型事先一无所知,可能掌握的是一些观测到的数据资料,这就要根据样本来对总体分布的种种假设进行检验。例如检验总体服从正态分布或某个其它类型的分布,这就是分布拟合检验的研究内容。
卡方拟合优度检验(皮尔逊卡方准则)
图片来自司守奎数学建模方法与应用
这是一种分布函数的检验法,它是检验经验分布与总体分布(理论分布)是否吻合的方法,它不限于总体服从正态分布,可用来检验总体是否服从任何一个预先给定的分布.此法主要是通过检验各组实测频数与理论频数的差异的大小来推断经验分布是否服从某个理论分布.其根据就是用各组实测频数与理论频数的差异构成一个符合分布的统计量,并用此统计量来进行假设检验.使用此法时要求样本容量较大,并在分组中,每组的理论频数至少不小于5。
对于(2),如果想要拟合的分布函数含有未知参数的话,可以用参数估计的方法先求解出未知参数。见下图
此时称 n p i np_i npi为理论频数
对于(3),统计量计算方法如下:
KS检验——柯尔莫哥洛夫检验
KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法(是针对连续分布的检验)。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定理论分布相比较,如果两者间差距较小,则推断该样本取自某特定分布簇),双样本的KS检测比较两个数据集的累积分布(连续分布间的相似性)
KS检验与卡方检验相比(都采用实际频数与理论频数之差进行检验),不需要将数据分组,可直接对原始数据的n个观测值进行检验,故KS检验对数据的利用更加完整,KS检验主要用于有计量单位的连续和定量数据。KS检验具有稳健性(不依赖均值的位置),对数据量纲不敏感,一般来说比卡方检验更有效,适用范围广
文案来自 KS检验
秩和检验
秩和检验可用于检验假设H:两个总体X与Y有相同的分布。
设分别从X、Y两总体中独立抽取大小为n1和 n2的样本,设n1≤n2,其检验步骤如下:
- 将两个样本混合起来,按照数值大小统一编序,由小到大,每个数据对应的序数称为秩。
- 计算取自总体X的样本所对应的秩之和,用T表示。
- 根据n1,n2与水平α,查秩和检验表,得秩和下限T1与上限 T2。
- 如果T≤T1或T≥T2,则否定假设H0,认为X,Y两总体分布有显著差异。否则认为X、Y两总体分布在水平α下无显著差异。
秩和检验的依据是,如果两总体分布无显著差异,那么T不应太大或太小,以T1和T2为上、下界的话,则T应在这两者之间,如果T太大或太小,则认为两总体的分布有显著差异。
Bootstrap方法
统计学习中一种重采样(Resampling)技术。附上原文链接Bootstrap方法详解——技术与实例
非参数Bootstrap方法
设总体的分布F未知,但已知有一个容量为n的来自分布F的数据样本,自这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本称为Bootstrap样本或称为自助样本。相继地,独立地自原始样本中取很多个Bootstrap样本,利用这些样本对总体F进行统计推断,这种方法称为非参数Bootstrap方法,又称自助法。这一方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要实用方法。这种方法的实现需要在计算机上作大量的计算,随着计算机威力的增长,它已成为一种流行的方法。
用非参数的Bootstrap法来求参数的近似置信区间的优点是,不需要对总体分布的类型做任何假设,而且可以适用于小样本,且能够用于各种统计量(不限于样本均值)。Bootstrap样本是来自已知的数据(原始样本)。
参数Bootstrap方法
方差分析
用于推断两个或两个以上总体均值是否有差异的显著性检验。
在方差分析当中,通常把研究对象的特征值,即所考察对象的实验结果称为实验指标。
对实验指标产生影响的原因称为因素。
因素中各个不同的状态称为水平
详解见文章方差分析基本介绍以及MATLAB实现
单因素方差分析
详细介绍可以看b站视频概率论与数理统计(浙江大学)单因素方差分析
仅考虑有一个因素A对实验指标的影响。方差分析的目的就是要比较因素A的r个水平下实验指标理论均值的差异,问题可归纳为比较这r个总体的均值差异。
检验假设采用的方法是平方和分解,即假设数据总的差异用总离差平方和(总偏差平方和)SST( S T S_T ST)表示, S T S_T ST分解为两个部分:一部分是由于因素A引起的差异——效应平方和(回归平方和)SSA( S A S_A SA),另一部分则由随机误差所引起的差异——误差平方和SSE( S E S_E SE)
其中效应平方和SSA代表的含义就是每一个水平下的样本均值与总的均值的偏差平方和,要注意到每个水平下的实验个数可能是不一样的。
残差平方和SSE,先求第i个水平下的随机残差的平方和,然后再对其从1到s求和,指的是全部数据的残差平方和。
可以证明总偏差平方和等于残差平方和加回归平方和,想了解可以看这篇证明 总偏差平方和 = 回归平方和 + 残差平方和
对离差、残差、误差不理解的可以看这篇 浅析多元回归中的"三差":离差(Deviation)、残差(Residual)与误差(Error)
单因素实验方差分析表
其中r表示因素A有r个水平,n表示样本容量。
解决实际问题时应该要呈现出这个表以说明求解结果。案例如下
其中F crit表示分位点对应的F值。
回归分析
回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。常见的回归分析有五类:线性回归、 0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。
下面先介绍一下基本概念
变量与变量之间的关系,分为确定性关系和相关性关系。
确定性关系:当自变量给定一个值时,就确定因变量的值与之对应。
相关性关系:变量之间的关系并不确定,而是表现为具有随机性的一种”趋势“。即对自变量x的同一值,在不同的观测中,因变量y可以取不同的值,而且取值是随机的,但对应x在一定范围内的不同值,对y进行观测时,可以观察到y随x的变化而呈现有一定趋势的变化。
而回归分析就是研究x与y之间相关性的分析。
值得注意的是相关性不等于因果性,严格的因果关系是很难论证的,我们只能退而求其次,通过回归分析,研究相关关系。
对于因变量y也有多种形式:
回归分析的任务就是,通过研究x和y的相关关系,尝试去解释y的形成机制,进而达到预测y的目的。回归分析可以识别哪些自变量x和y是真的相关,哪些又不是(逐步回归法);判断相关性方向;在确定了重要的x变量的前提下,通过确定回归系数赋予x不同的权重,进而可以知道不同变量之间的相对重要性。
回归分析的分类
类型 | 模型 | Y的特点 | 例子 |
---|---|---|---|
线性回归 | OLS、 GLS(最小二乘) | 连续数值型变量 | GDP、产量、收入 |
0‐1回归 | logistic回归 | 二值变量(0‐1) | 是否违约、是否得病 |
定序回归 | probit定序回归 | 定序变量 | 等级评定(优良差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |