正态分布及其如何检验

什么是正态分布

正态分布,也称高斯分布,是以天才卡尔 · 弗里德里希 · 高斯的名字命名的。
当我们画出正态分布曲线时,我们可以看出该曲线是一个钟形的曲线,如果变量的均值、模和中值相等,那么该变量呈现正态分布。在这里插入图片描述
正态分布只依赖与数据的两个指标:样本的均值和方差

  • 均值:样本所有数据的平均值
  • 方差:衡量样本全部数据偏离均值的程度

同时,正态分布非常容易解释,因为:

  • 正态分布的均值、模和中位数都是相等的
  • 我们只需要用均值和标准差就能解释整个分布

此外,值得注意的是:生活中有大部分的变量都近似服从正态分布

那为何如此多的变量都近似服从正态分布呢?这是由于中心极限定理。
(这里我就是稍微提一下,感兴趣的小伙伴可以去学习一下概率论)

如何检验正态分布

在数学建模中,我们在使用皮尔逊相关系数时首先会检验变量是否服从正态分布和线性相关,线性相关可以通过我们的散点图得知,而是否服从正态分布也有相应的检验方法。

1.JB检验(样本数据n>30)

雅克-贝拉检验(Jarque-Bera test)
对于一个随机变量 { X i } \left \{ X_{i} \right \} {Xi}, 假设其偏度为 S S S, 峰度为 K K K, 那么我们可以构造 J B JB JB统计量:
J B = n 6 [ S 2 + ( K − 3 ) 2 4 ] JB=\frac{n}{6}\left [ S^{2}+\frac{({K-3)}^{2}}{4} \right ] JB=6n[S2+4(K3)2]
可以证明,如果 { X i } \left \{ X_{i} \right \} {Xi}是正态分布,那么在n>30情况下 J B ∼ χ 2 ( 2 ) JB\sim {\chi ^{2}\left ( 2 \right )} JBχ2(2)(自由度为2的卡方分布)。

注:正态分布的偏度为0峰度为3

偏度:表示概率分布密度曲线相对于平均值不对称程度
峰度:表示概率密度分布曲线在平均值处峰值高低,反映了峰部的尖度。

MATLAB中JB检验函数:[h,p]=jbtest(X,alpha)

当输出的h为1时,表示在95%置信水平下接受 数据符合正态分布 的假设;h为0时代表在95%置信水平下拒绝 数据符合正态分布 的假设。

alpha为显著性水平(一般取0.05),显著性水平+置信水平=1

n_c=size(X,2);  %求数据的列数(变量个数)
H=zeros(1,n_c);
P=zeros(1,n_c);  %初始化矩阵
for i=1:n_c
     [h,p]=jbtest(X(:,i),0.05);   %进行JB检验
     H(i)=h;
     P(i)=p;    %储存每列数据的h和p值
end
disp(H);
disp(P);

2.Shapiro-wilk检验(样本数据50>n>3)

Shapiro-wilk夏皮洛-威尔克检验

由于MATLAB中没有专门的函数来进行Shapiro-wilk检验,所以我用SPSS来进行Shapiro-wilk检验,检验数据是否符合正态分布。

  1. 导入或者输入数据
  2. 点击分析>>描述统计>>探索

在这里插入图片描述

  1. 点击’‘探索 图’’ >>标记’‘含检验的正态图’’ >> 点击继续>>确定

在这里插入图片描述

  1. 得到正态性检验图,观察显著性大小。

在这里插入图片描述
显著性的数值就是该变量的p值。
p<0.05,说明在95%置信水平下拒绝 数据符合正态分布 的假设;
p>0.05,说明在95%置信水平下服从 数据符合正态分布 的假设。

Q-Q图检验(要求数据量非常大)

在统计学中,Q-Q图(Q表示分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。

首先选定分位数的对应的概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同的概率区间上相同的分位数。

如果检验的变量符合正态分布,那Q-Q图就是一条直线。使用Q-Q图鉴别样本数据是否近似正态分布,只需看Q-Q图上点是否近似在一条直线附近

qqplot(X);  %X必须是向量

如果我们的数据量较少的话,Q-Q图就不是那么明显表现在一条直线上。
在这里插入图片描述
如果我们的数据量足够多的话,Q-Q图明显表现在一条直线上,更加具有说服力。
在这里插入图片描述

这就是我们数学建模中常用检验正态分布的三种方法,到时候根据样本数据多少选择合适方法进行检验。

  • 10
    点赞
  • 148
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要证明一个随机变量符合正态分布,通常需要分以下几步进行: 1. 定义随机变量及其概率密度函数(PDF)。 2. 求出该随机变量的期望值和方差。 3. 对该随机变量的PDF进行标准化处理,即将其转换为标准正态分布的PDF。 4. 进行正态性检验,例如使用正态概率图或者假设检验。 在 MATLAB 中,可以使用 `normpdf` 函数来计算正态分布的概率密度函数,使用 `mean` 和 `std` 函数来计算随机变量的期望值和标准差(从而得到方差),使用 `zscore` 函数来进行标准化处理,使用 `normplot` 函数来画出正态概率图。 以下是一个示例代码,演示如何使用 MATLAB 来证明一个随机变量符合正态分布: ```matlab % 生成 1000 个随机数 x = randn(1000, 1); % 计算期望值和标准差 mu = mean(x); sigma = std(x); % 计算概率密度函数 pdf = normpdf(x, mu, sigma); % 标准化处理 z = zscore(x); % 绘制正态概率图 normplot(z); % 进行假设检验 [h, p] = kstest(z); if h disp('The data does not follow a normal distribution.') else disp('The data follows a normal distribution.') end ``` 在这个例子中,我们使用 `randn` 函数生成了 1000 个随机数,并通过计算期望值和标准差来得到正态分布的概率密度函数。然后使用 `zscore` 函数将随机变量标准化,并使用 `normplot` 函数画出正态概率图。最后,我们进行了假设检验,判断该随机变量是否符合正态分布
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值