正态分布以及推测统计简述

正态分布及推测统计简述

在概率密度函数中,最常出现且最重要得一种,是呈正态分布的概率密度函数。大致来说,“呈现带有误差现象的数据大多可用正态分布来表示

1 . 正态分布的概率密度函数

在这里插入图片描述
当随机变数X满足上式所代表的概率密度函数时, X 的 平 均 值 为 μ , 方 差 为 σ 2 , 标 准 差 为 σ 。 X的平均值为μ,方差为\sigma^2,标准差为\sigma。 Xμσ2σ
平 均 值 为 μ , 方 差 为 σ 2 的 正 态 分 布 表 示 为 N ( μ , σ 2 ) 。 平均值为μ,方差为\sigma^2的正态分布表示为N(μ, \sigma^2)。 μσ2Nμσ2

2. 标准正态分布

平均值为0,标准差为1的正态分布N(0,1)被称为标准正态分布。
当随机变数X呈正态分布时,假设随机变数X满足:
在这里插入图片描述则随机变数Z呈N(0,1)的标准正态分布。
呈标准正态分布的概率密度函数为:
在这里插入图片描述
标准正态分布的概率密度函数的图像为:
在这里插入图片描述

3. 正态分布表

注意:前提是标准正态分布!!!
在这里插入图片描述
在这里插入图片描述

因为标准正态分布根据y轴对称,利用这一点,可以依据标准正态分布表来计算出一半,然后再×2,算出P(-u≤Z ≤u):

例如:根据上表,计算P(-1.96 ≤ Z ≤ 1.96)= P(1.96 × 2) = 0.4750 * 2 = 0.950

4. 标准正态分布重要的性值

随机变数Z呈标准正态分布N(0,1)时, -1.96 ≤ Z ≤ 1.96的面积占全体面积的95%。
在这里插入图片描述

5. 什么是推测统计

推测统计分为两个重要模块

  • 推算
    通过研究样本对母集团做出概率预测的“推算”。

比如,针对一部分有选举权的公民进行问卷调查之后,进行当选者预测。这种情况下,所有有选举权的公民是**“母集团”,而接收问卷调查的公民是“样本”**。

  • 检验
    针对已知数据的差值,找出产生差值原因的“检验”。

在判断“猜单双的赌博中,20次中有15次都是双数的话肯定是作弊了”以及“喝咖啡能长寿”这些说法的真伪时,用的是“检验”。

5.1 使用标准正态分布进行“推算”

理科实验中,为了保证测量仪器的精确度,一般都会记载测量值偏离平均值的标准差。

下面通过一个测量体重的实例来进一步验证“使用标准正态分布进行推算”

假设你站上标准差为100g的体重秤时,显示你是72.0kg,但是不要忘了测量是会产生误差的,这个数值或多或少会与你的真实体重存在一定偏差。在这种情况下,暂且推定测量出你“真正体重”的精度为95%(可信水平95%)。
假如你多次站上体重秤去测量,从而得出了一组样本数据。可以肯定的是,**这一数据样本几乎是在“真正的体重”值附近呈正态分布的。**也就是说,“真正的体重”与重复多次测量后得出的正态分布的平均值几乎一致。
当然,“真正的体重≈重复测量后得到的平均值”是同一个定数。现在把它设为μ。
X=72.0kg”的测量值与μ之间偏离了多少?或者反过来说,推算μ处在偏离X值多少的位置上,是我们的目的。

首先,将数据变形为标准正态分布的数据。因为“标准差=100g=0.1kg”,所以:
在这里插入图片描述一般来说,呈标准正态分布的Z的取值范围为-1.96~1.96时,是95%概率,即
-1.96≤Z≤1.96
将⑮式代入后得到:
在这里插入图片描述在这里插入图片描述也就是说,标准差为100g的体重计表示“72.0kg”时,你“真正的体重”(真实的数值)有95%的可信度在“71.804kg~72.196kg之间”

上面求出的“71.804kg~72.196kg”的范围在统计学上被称作95%的置信区间(是指由样本统计量所构造的总体参数的估计区间。)
“μ的95%置信区间是α≤μ≤β”是指:“在母集团中随机观测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么,在100次中大概有95次,μ的值落在a以上b以下的范围内。”

5.2 使用标准正态分布进行“检验”

统计学中的检验是一种合理判断数据是否存在异常的手段。

下面还是通过一个例子来理解:

假如你的同事A每天开车上班,过去的数据显示,他上班路上通常会花费30分钟(平均值μ),标准差为5分钟。有天早上,A告诉你,他今天上班需要39分钟。这是否是“异常”的现象呢?

让我们来“检验”一下“μ=30”的说法吧。
首先将数据标准化。将上班时间设为X的话,因为μ=30, σ=5,所以可以得出:
在这里插入图片描述
和先前一样,根据标准正态分布的性质,Z的取值范围为-1.96~1.96时,概率取95%。
-1.96≤Z≤1.96
代入上式得到:
在这里插入图片描述根据以上结果,如果“μ=30”的说法正确,那么上班时间(X)应该在20.2分钟~39.8分钟之间。

用统计学研究事物时,(一般来说)有95%概率发生的事件被视为“发生概率较大”的事件,而除此之外的事件被视为“异常”。
39分钟的时间在所测算的时间范围内,不算是异常情况。也就是说,“X=39”这一数据,包含在“μ=30”与数据整合后的数据范围内。

6. t检验

首先,有95%概率发生的事件被视为“发生概率较大”的事件。以这一标准进行的检验被称为“有意水准5%验证”。

在已知母集团呈标准差为σ的正态分布时,建立“真正的平均值为μ”这一假说,并进行“有意水准5%验证”后,如果针对被观测的数据X来说:
在这里插入图片描述
以上不等式成立的话,我们就说“接受原假设”。反之,不等式不成立时,就说“拒绝原假设”。

顺便说一句,有名的t检验是利用了t分布进行的检验。而呈正态分布的母集团中抽出的数据样本呈标准正态分布(当数据量在数百甚至数千以上时,t分布与标准正态分布几乎一致)就十分接近于t分布。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值