机器学习与统计模型

        这一章重点探讨统计模型和机器学习模型,两个大的主题都建立在数据的基础之上,所以要熟练掌握对数据的处理与分析。实际上,机器学习本身就是统计模型的延伸,是在大数据背景下传统统计方法捉襟见肘了,所以才考虑引入机器学习。

        在学习过程中,大家会接触到大量的算法,一方面要理解算法的基本原理,另一方面又要能针对实际问题进行灵活应用。

注意:本章内容是比较难以学习的一个章节,希望能够耐心去学习这一章。另外,大家还要注意, 机器学习方法虽然应用非常广泛,但也有它的局限性,并不是所有数学建模问题都适合使用机器学习来处理。

 1.统计分布与假设检验

        本节将重点探讨几种常见的假设检验以及它们的分析方法。但在介绍这些假设检验之前,还需要引入重 要的概念:统计量与统计分布。在前面数据处理与拟合模型当中已经介绍了一些数据统计的方法,但那些都只是浅层的统计,只能反映现象而无法解释背后的真伪和因果。为了对数据现象背后的真伪性做出判断,这才引入了统计量和统计分布的概念,从而有了一些假设检验方法。

1.1统计量与常见的统计分布

        概率和统计是一对孪生兄弟,前者通过已知总体的所有相关参数信息,来计算特定事件发生的概率;后者则是在总体未知的情况下,通过采样观察样本状态来反推估计总体。因此,尽管概率论中也有随机变量和分布律,数理统计中的统计分布与其仍然存在较大差别。但数理统计中统计量和分布的概念仍然需要借助概率论中的工具来研究。

        为何要针对样本构造统计量?

        举一个简单的例子:比如现在已知一系列随机变量X1, X2,...Xn都服从同一 个分布P(X),那么针对总体的分布就可以求解出它对应的数学期望EX和方差DX。但如果从这个总体中抽样了十个随机变量,这时就从理论上的分布映射为了实际上的采样。对这十个随机变量的观测值求均值,它理论上能够逼近EX,但往往不会等于EX。这就是区别,我们更想要探究的就是如何通过统计的方 法,对实际的、可观测的样本构造统计量让它能够用于合理估计未知的、“理论上的”、总体的分布。

        那么聊完统计量,统计分布又是什么呢?

         事实上,统计分布其实是一组样本观测值的总体表现,可以用它们所属的区间来表示。举一个例子,这里有一个8层的道尔顿板,小球可以从道尔顿板的顶部落下, 那么小球每一次都可以有向左或者向右两种走法,概率均为0.5。最终落到九个格点。那么对于一个小球而言,它落到第几个格点是一个随机变量,这个随机变量服从一个二项分布B(8,0.5),即:

        P(X=i)=C_{i}^{8}(\frac{1}{2})^{8}

        很显然,小球应该是落到最中间的格子的概率最大。这是理论情况下。现在从这个分布中采样,采集100个小球,每个小球都会依照分布掉落到一个格子内,可以绘制出不同格点的概率的条形图,如图所示。

        从图中可以看到,很显然,小球所呈现的条形图并不是一个对称图形,而理论上的概率条形图应该是严格对称的,这也就展示了:样本与总体并不完全一致。但如果仔细对比,可以发现,样本的频率分布直 方图和理论上的概率条形图相差并不太大,因此可以用样本来估计总体。

        对于每一格而言,条形的高度反映了落在这一格点的小球数量或者频率。把这样的能够反映样本频率在不同区间内分布状况的图像叫频率分布直方图。

        而如果使用更大的道尔顿板,底部格点更多的话,所得到频率分布直方图也更加光滑、更加接近于理论上的概率分布,可以用一条曲线去拟合这个频率分布直方图。这样的曲线其实也就 是概率密度曲线。从上面的例子看来,实际样本的统计量也会呈现出特定的分布。但统计量的分布由于存在多个样本,它与单个随机变量的分布又是有着很大差异的。

        常见的统计分布有四种:

正态分布:正态分布是最基本的统计分布之一。正态分布是一种概率分布,其特征为钟形曲线,且曲线关于均值对称。在统计学中,许多随机变量都服从或近似服从正态分布,如人的身高、考试分数等。

        正态分布具有三个主要性质:

        1)集中性,即曲线的峰值位于均值处;

        2)对称性,即曲线关于均值对称;

        3)均匀变动性,即正态分布曲线以均值为中心,向两侧均匀展开。在上面道尔顿板的例子中,如果道尔顿板非常大、小球数量非常多,这些小球的分布将会近似服从一个正态分 布。

        影响正态分布的参数是总体的均值和方差,记一个服从正态分布的样本X为:

        另外,正态分布的概率密度曲线是存在解析式的:

卡方分布: 假设有n个独立的随机变量X1, X2, ..., Xn,每个随机变量都来自标准正态分布(均值为 0,标准差为1),那么这n个随机变量的平方和服从自由度为n的卡方分布。形如:

Y(n)=X^{2}(n)=X_{1}^{2}+X_{2}^{2}+......+X_{n}^{2}

卡方分布的性质包括:

1)随机变量取值范围为非负实数;

2)随着自由度的增加,卡方分布趋近于正态分布;

3)卡方分布具有可加性,即若随机变量相互独立,则它们的平方和服从卡方分布。常见统计量例如样本方差等都服从卡方分布.

t-分布:t-分布是由一个服从标准正态分布的随机变量X和一个服从自由度为n的卡方分布的随机变量Y组合而来的。它的表达式形如:

t分布具有以下性质:

1)随着自由度的增加,t分布趋近于正态分布;

2)t分布具有可加性,即若随机变量相互独立,则它们的t值之和仍服从t分布;

3)对于不同的自由度,t分布的形状会发生变化,但总是关于其均值对称。

        t分布在统计学中有着广泛的应用,尤其是在小样本数据分析、方差分析、回归分析等领域。由于t分布对样本大小和方差的变化较为稳健,因此在实践中常常用来进行假设检验和置信区间的计算。 同时,t分布也是构建其他统计量的基础,如Z分布、F分布等。

F-分布:F分布是通过将两个正态分布的随机变量的比值进行标准化而得到的。具体来说,假设有两个正态分布的随机变量X和Y,它们的方差分别为\sigma ^{2}(x)\sigma ^{2}(y),且X和Y相互独立,那么随机变量 X²/Y²就服从自由度为n1和n2的F分布,其中n1和n2分别为该F分布的第一个和第二个自由度。

F分布具有以下性质:

1)随着自由度的增加,F分布趋近于正态分布;

2)F分布具有可加性,即若两个随机变量相互独立,则它们的F值之和仍服从F分布;

3)对于不同的自由度,F分布的形状会发生变化,但总是关于其均值对称。

F分布在统计学中主要用于方差分析和回归分析等领域。

        在方差分析中,通过比较组间方差和组内方差,可以检验不同组之间的差异是否显著。

        在回归分析中,通过计算决定系数R²,可以评估模型对数据的拟合程度。

        正态分布曲线呈现出钟形形状,且关于均值对称。曲线下的面积表示概率,总面积为1。均值影响曲线对称轴,均值越大则曲线越偏右,而若标准差越大曲线最高点则越低。

        卡方分布曲线随着自由度的增加而逐渐趋近于正态分布。在自由度较小时,曲线呈现偏态特征,而在自由度较大时,曲线接近对称。随着自由度的增加,曲线的形状逐渐变得对称和稳定。

        t分布曲线随着自由度的增加而逐渐趋近于正态分布。在自由度较小时,曲线呈现出更宽的尾部和更尖的峰部,表现出更强的离散性。随着自由度的增加,曲线的形状逐渐变得平滑,并接近正态分布。

        F分布曲线在分母自由度较小或分子自由度较大时,曲线呈现出更窄的峰部和更长的尾部,表现出更强的离散性。随着分母自由度的增加,曲线的形状逐渐变得平滑。

1.2正态性检验

        正态性检验的目的是为了检测一组数据是否服从正态分布,是否表现出正态分布的特性。正态性检验的方法有很多,包括QQ图、KS检验、SW检验、JB检验等等。

        Shapiro-Wilk检验是一种用于验证数据集是否符合正态分布的统计方法。该方法通过计算样本数据的顺序统计量,并比较这些观察值与理论正态分布的期望值之间的差异来进行评估。

        Shapiro-Wilk 检验的核心理念在于,它假设数据集遵循正态分布。为了验证这一假设,该方法首先计算Shapiro Wilk统计量W。这个统计量是一个衡量数据与正态分布拟合程度的指标,其基于实际观察值与理论正态分布期望值之间的差异。如果W值越接近1,则表明数据更符合正态分布。随后,Shapiro Wilk统计量W与临界值进行比较。临界值是根据特定的显著性水平(通常为5%)和数据集的大小 计算得出的。这一比较过程是判断数据是否服从正态分布的关键步骤。最终,根据统计量W与临界 值的比较结果,可以得出结论。如果W值显著低于临界值,则可以拒绝零假设,这意味着数据不服 从正态分布。相反,如果W值不低于临界值,则不能拒绝零假设,这表明数据可能服从正态分布。 核心统计量为:

        

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值