c语言如何判断数据是否符合正态分布_统计学-1:判断数据是否满足正态分布

1. 正态分布的定义

正态分布:The Normal Distribution,假设一随机变量X服从一个期望为

,方差为
的正态分布,
概率密度函数

则可记为:

import 

d64b8c1133b22445b9fc45c91fe3cb29.png

(1)正态分布为什么常见?真正原因是中心极限定理(Central Limit Theorem)。根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

(2)正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会相互影响,那么就不是正态分布了。ps:如果各种因素对结果的影响不是相加的,而是相乘,那么最终结果不是正态分布,而是对数正态分布。

2. 试验:高尔顿钉板

弗朗西斯·高尔顿爵士(1822-1911),查尔斯·达尔文的表弟,英格兰维多利亚时代的生物统计学家。他发明了一个叫高尔顿钉板的装置,展示了正态分布的产生过程:高尔顿钉板是一种装置,它是一个木盒子,里面均匀的分布若干个钉子。从入口处把小球导倒入钉板,弹珠往下滚的时候,撞到钉子就会随机选择往左走还是往右走,一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布。

高尔顿钉板有两处细节:

  • 顶上只有一处开口。这是要求弹珠的起始状态一致,即要求同分布。
  • 开口位于顶部中央。这倒无所谓,开在别的位置,分布形态不变,只是平移。

72f2c8327e80a81bbbc33cd342ef0a44.png

用代码实现高尔顿钉板,其中:

  • n个小球
  • 盒子宽度为box_width
  • 盒子内部有钉子为row_count行和col_count

问题的本质是:给定一个初始状态,执行row_count次随机增减,最终得到的数组满足正态分布。

高尔顿钉板可以做出一些改动,变动之后仍然满足正态分布。比如移动开口的水平位置;或者改变小球碰到钉子之后的随机性,即便是不均匀的分布依旧最终也会形成正态分布。

import 

f0eec978f0a370b1f5487848f3d33308.png

自然界为何如此多的变量都服从正态分布?因为每一个变量都是由一系列随机变量组成的。例如人的身高是由饮食、气候、基因等很多独立变量组成,这些独立变量就像钉子一样一层一层独立的摆放,最初人的身高是固定的,就像从中间下滑的小球,经过多次随机因素之后,人的身高就变成了正态分布。

每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为它是一个经验公式。-- 加布里埃尔·李普曼

正态分布是么有道理的,它是一种经验分布。

3. 正态性检验:

3.1 偏度与峰度方法

偏度Skewness)描述数据分布不对称的方向及其程度。

966f2ddd5f7bbf83077716100fd1e66f.png
  • 当偏度≈0时,可认为分布是对称的,服从正态分布;
  • 当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;
  • 当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;

注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。

峰度Kurtosis):描述数据分布形态的陡缓程度。

a169bdf8269ec40df1f960592d284c68.png
  • 当峰度≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);
  • 当峰度>0时,分布的峰态陡峭(高尖);
  • 当峰度<0时,分布的峰态平缓(矮胖);

利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。

了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。

3.2 正态性检验:P-P图和Q-Q图方法

P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线(即对角线)基本重合。

3.3 正态性检验:非参数检验方法

正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异,即符合正态分布”,也就是说P>0.05才能说明资料符合正态分布。

通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(SPSS规定样本量≤5000),另一种是Kolmogorov–Smirnov检验,适用于大样本资料(SPSS规定样本量>5000)。

4. 大数定理与中心极限定理

4.1 定义

大数定理(Law of Large Numbers):采样足够多的时候,

个采样的平均数
会接近单个分布的
均值

中央极限定理(Central Limit Theorem):采样足够多的时候,

个采样的平均数
的分布会接近一个
正态分布。且该正态分布的均值等于单个分布的均值
,方差等于单个分布的方差除以
,即

4.2 代码实现

我们以抛骰子为例,抛出多次后,抛出的骰子趋于点数3.5(大数定理)。假设每次抛出20次骰子,求这20次骰子的和,那么抛出多次后,此和的分布趋近于正态分布(中心极限定理)。

# 随机的抛六面的骰子,出现的点数最后趋于均值3.5

0c656e33782a119e6b036564a717e9f6.png
# 随机的抛六面的骰子,计算三次点数的和的分布:

26cde188a12a42515edf373d0c5a5b32.png

4.3 公式推导

傅里叶变换及其应用(斯坦福大学)讲义中3.6,3.7节有关于卷积和中心极限定理的证明。

其3.6节(Convolution in Action III: The Central Limit Theorem

c2c5cb9ec5f823977c472392082d2b09.png
Convolution and probability density functions: The probability density function of the sum of two independent random variables is the convolution of the probability density functions of each. 两个独立随机变量和的概率密度函数是这两者概率密度函数的卷积。

因此,无独立变量的概率密度函数卷积在一起就是它们和的概率密度函数,也就是一个正态分布(高斯分布)。

其3.7节(The Central Limit Theorem: The Bell Curve Tolls for Thee

中心极限定理的证明:

9065726e1e4c19881444885dff261fd8.png

3f71e48b3aca25901a96e9d6e76106b2.png
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值