c语言如何判断数据是否符合正态分布_统计学-1：判断数据是否满足正态分布

最新推荐文章于 2022-01-10 17:01:32 发布

weixin_39957265

最新推荐文章于 2022-01-10 17:01:32 发布

阅读量1.1k

点赞数

文章标签： c语言如何判断数据是否符合正态分布

1. 正态分布的定义

正态分布：The Normal Distribution，假设一随机变量X服从一个期望为

，方差为

的正态分布，

概率密度函数为

则可记为：

。

import

（1）正态分布为什么常见？真正原因是中心极限定理（Central Limit Theorem）。根据中心极限定理，如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。

（2）正态分布只适合各种因素累加的情况，如果这些因素不是彼此独立的，会相互影响，那么就不是正态分布了。ps：如果各种因素对结果的影响不是相加的，而是相乘，那么最终结果不是正态分布，而是对数正态分布。

2. 试验：高尔顿钉板

弗朗西斯·高尔顿爵士（1822-1911），查尔斯·达尔文的表弟，英格兰维多利亚时代的生物统计学家。他发明了一个叫高尔顿钉板的装置，展示了正态分布的产生过程：高尔顿钉板是一种装置，它是一个木盒子，里面均匀的分布若干个钉子。从入口处把小球导倒入钉板，弹珠往下滚的时候，撞到钉子就会随机选择往左走还是往右走，一颗弹珠一路滚下来会多次选择方向，最终的分布会接近正态分布。

高尔顿钉板有两处细节：

顶上只有一处开口。这是要求弹珠的起始状态一致，即要求同分布。
开口位于顶部中央。这倒无所谓，开在别的位置，分布形态不变，只是平移。

用代码实现高尔顿钉板，其中：

有n个小球
盒子宽度为box_width
盒子内部有钉子为row_count行和col_count列

问题的本质是：给定一个初始状态，执行row_count次随机增减，最终得到的数组满足正态分布。

高尔顿钉板可以做出一些改动，变动之后仍然满足正态分布。比如移动开口的水平位置；或者改变小球碰到钉子之后的随机性，即便是不均匀的分布依旧最终也会形成正态分布。

import

自然界为何如此多的变量都服从正态分布？因为每一个变量都是由一系列随机变量组成的。例如人的身高是由饮食、气候、基因等很多独立变量组成，这些独立变量就像钉子一样一层一层独立的摆放，最初人的身高是固定的，就像从中间下滑的小球，经过多次随机因素之后，人的身高就变成了正态分布。

每个人都相信它（正态分布）：实验工作者认为它是一个数学定理，数学研究者认为它是一个经验公式。-- 加布里埃尔·李普曼

正态分布是么有道理的，它是一种经验分布。

3. 正态性检验：

3.1 偏度与峰度方法

偏度（Skewness）描述数据分布不对称的方向及其程度。

当偏度≈0时，可认为分布是对称的，服从正态分布；
当偏度>0时，分布为右偏，即拖尾在右边，峰尖在左边，也称为正偏态；
当偏度<0时，分布为左偏，即拖尾在左边，峰尖在右边，也称为负偏态；

注意：数据分布的左偏或右偏，指的是数值拖尾的方向，而不是峰的位置，容易引起误解。

峰度（Kurtosis）：描述数据分布形态的陡缓程度。

当峰度≈0时，可认为分布的峰态合适，服从正态分布（不胖不瘦）；
当峰度>0时，分布的峰态陡峭（高尖）；
当峰度<0时，分布的峰态平缓（矮胖）；

利用偏度和峰度进行正态性检验时，可以同时计算其相应的Z评分（Z-score），即：偏度Z-score=偏度值/标准误，峰度Z-score=峰度值/标准误。在α=0.05的检验水平下，若Z-score在±1.96之间，则可认为资料服从正态分布。

了解偏度和峰度这两个统计量的含义很重要，在对数据进行正态转换时，需要将其作为参考，选择合适的转换方法。

3.2 正态性检验：P-P图和Q-Q图方法

P-P图反映了变量的实际累积概率与理论累积概率的符合程度，Q-Q图反映了变量的实际分布与理论分布的符合程度，两者意义相似，都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布，则数据点应与理论直线（即对角线）基本重合。

3.3 正态性检验：非参数检验方法

正态性检验属于非参数检验，原假设为“样本来自的总体与正态分布无显著性差异，即符合正态分布”，也就是说P>0.05才能说明资料符合正态分布。

通常正态分布的检验方法有两种，一种是Shapiro-Wilk检验，适用于小样本资料（SPSS规定样本量≤5000），另一种是Kolmogorov–Smirnov检验，适用于大样本资料（SPSS规定样本量>5000）。

4. 大数定理与中心极限定理

4.1 定义

大数定理（Law of Large Numbers）：采样足够多的时候，

个采样的平均数

会接近单个分布的

均值

。

中央极限定理（Central Limit Theorem）：采样足够多的时候，

个采样的平均数

的分布会接近一个

正态分布。且该正态分布的均值等于单个分布的均值

，方差等于单个分布的方差除以

，即

。

4.2 代码实现

我们以抛骰子为例，抛出多次后，抛出的骰子趋于点数3.5（大数定理）。假设每次抛出20次骰子，求这20次骰子的和，那么抛出多次后，此和的分布趋近于正态分布（中心极限定理）。

# 随机的抛六面的骰子，出现的点数最后趋于均值3.5

# 随机的抛六面的骰子，计算三次点数的和的分布：

4.3 公式推导

傅里叶变换及其应用（斯坦福大学）讲义中3.6，3.7节有关于卷积和中心极限定理的证明。

其3.6节（Convolution in Action III: The Central Limit Theorem）

Convolution and probability density functions: The probability density function of the sum of two independent random variables is the convolution of the probability density functions of each. 两个独立随机变量和的概率密度函数是这两者概率密度函数的卷积。

因此，无独立变量的概率密度函数卷积在一起就是它们和的概率密度函数，也就是一个正态分布（高斯分布）。

其3.7节（The Central Limit Theorem: The Bell Curve Tolls for Thee）

中心极限定理的证明：

weixin_39957265

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
c语言如何判断数据是否符合正态分布_统计学-1：判断数据是否满足正态分布

1. 正态分布的定义正态分布：The Normal Distribution，假设一随机变量X服从一个期望为，方差为的正态分布，概率密度函数为则可记为：。import （1）正态分布为什么常见？真正原因是中心极限定理（Central Limit Theorem）。根据中心极限定理，如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。（2）正...
复制链接

扫一扫