正态分布以及推测统计简述

最新推荐文章于 2024-04-13 15:44:02 发布

爱吃酸菜鱼的汉堡

最新推荐文章于 2024-04-13 15:44:02 发布

阅读量5k

点赞数

分类专栏：统计学文章标签：统计学

本文链接：https://blog.csdn.net/HunGRy_FOOliSHhh/article/details/112254534

版权

统计学专栏收录该内容

8 篇文章 1 订阅

订阅专栏

正态分布及推测统计简述

在概率密度函数中，最常出现且最重要得一种，是呈正态分布的概率密度函数。大致来说，“呈现带有误差现象的数据大多可用正态分布来表示”

1 . 正态分布的概率密度函数

在这里插入图片描述
当随机变数X满足上式所代表的概率密度函数时， $X的平均值为μ，方差为\sigma^2，标准差为\sigma。$
$平均值为μ，方差为\sigma^2的正态分布表示为N（μ， \sigma^2）。$

2. 标准正态分布

平均值为0，标准差为1的正态分布N（0，1）被称为标准正态分布。
当随机变数X呈正态分布时，假设随机变数X满足：
在这里插入图片描述则随机变数Z呈N（0，1）的标准正态分布。
呈标准正态分布的概率密度函数为：

标准正态分布的概率密度函数的图像为：

3. 正态分布表

注意：前提是标准正态分布！！！
在这里插入图片描述

因为标准正态分布根据y轴对称，利用这一点，可以依据标准正态分布表来计算出一半，然后再×2，算出P（-u≤Z ≤u）：

例如：根据上表，计算P（-1.96 ≤ Z ≤ 1.96）= P（1.96 × 2） = 0.4750 * 2 = 0.950

4. 标准正态分布重要的性值

随机变数Z呈标准正态分布N（0，1）时， -1.96 ≤ Z ≤ 1.96的面积占全体面积的95%。
在这里插入图片描述

5. 什么是推测统计

推测统计分为两个重要模块

推算
通过研究样本对母集团做出概率预测的“推算”。

比如，针对一部分有选举权的公民进行问卷调查之后，进行当选者预测。这种情况下，所有有选举权的公民是**“母集团”，而接收问卷调查的公民是“样本”**。

检验
针对已知数据的差值，找出产生差值原因的“检验”。

在判断“猜单双的赌博中，20次中有15次都是双数的话肯定是作弊了”以及“喝咖啡能长寿”这些说法的真伪时，用的是“检验”。

5.1 使用标准正态分布进行“推算”

理科实验中，为了保证测量仪器的精确度，一般都会记载测量值偏离平均值的标准差。

下面通过一个测量体重的实例来进一步验证“使用标准正态分布进行推算”

假设你站上标准差为100g的体重秤时，显示你是72.0kg，但是不要忘了测量是会产生误差的，这个数值或多或少会与你的真实体重存在一定偏差。在这种情况下，暂且推定测量出你“真正体重”的精度为95%（可信水平95%）。
假如你多次站上体重秤去测量，从而得出了一组样本数据。可以肯定的是，**这一数据样本几乎是在“真正的体重”值附近呈正态分布的。**也就是说，“真正的体重”与重复多次测量后得出的正态分布的平均值几乎一致。
当然，“真正的体重≈重复测量后得到的平均值”是同一个定数。现在把它设为μ。
“X=72.0kg”的测量值与μ之间偏离了多少？或者反过来说，推算μ处在偏离X值多少的位置上，是我们的目的。

首先，将数据变形为标准正态分布的数据。因为“标准差=100g=0.1kg”，所以：
在这里插入图片描述一般来说，呈标准正态分布的Z的取值范围为-1.96～1.96时，是95%概率，即
-1.96≤Z≤1.96
将⑮式代入后得到：
也就是说，标准差为100g的体重计表示“72.0kg”时，你“真正的体重”（真实的数值）有95%的可信度在“71.804kg～72.196kg之间”

上面求出的“71.804kg～72.196kg”的范围在统计学上被称作95%的置信区间（是指由样本统计量所构造的总体参数的估计区间。）
“μ的95%置信区间是α≤μ≤β”是指：“在母集团中随机观测与这一次相同数量的数据，且用同样的方式重复确定置信区间的话，那么，在100次中大概有95次，μ的值落在a以上b以下的范围内。”

5.2 使用标准正态分布进行“检验”

统计学中的检验是一种合理判断数据是否存在异常的手段。

下面还是通过一个例子来理解：

假如你的同事A每天开车上班，过去的数据显示，他上班路上通常会花费30分钟（平均值μ），标准差为5分钟。有天早上，A告诉你，他今天上班需要39分钟。这是否是“异常”的现象呢？

让我们来“检验”一下“μ=30”的说法吧。
首先将数据标准化。将上班时间设为X的话，因为μ=30, σ=5，所以可以得出：
在这里插入图片描述
和先前一样，根据标准正态分布的性质，Z的取值范围为-1.96～1.96时，概率取95%。
-1.96≤Z≤1.96
代入上式得到：
根据以上结果，如果“μ=30”的说法正确，那么上班时间（X）应该在20.2分钟～39.8分钟之间。