正态分布及推测统计简述
在概率密度函数中,最常出现且最重要得一种,是呈正态分布的概率密度函数。大致来说,“呈现带有误差现象的数据大多可用正态分布来表示”
1 . 正态分布的概率密度函数
当随机变数X满足上式所代表的概率密度函数时,
X
的
平
均
值
为
μ
,
方
差
为
σ
2
,
标
准
差
为
σ
。
X的平均值为μ,方差为\sigma^2,标准差为\sigma。
X的平均值为μ,方差为σ2,标准差为σ。
平
均
值
为
μ
,
方
差
为
σ
2
的
正
态
分
布
表
示
为
N
(
μ
,
σ
2
)
。
平均值为μ,方差为\sigma^2的正态分布表示为N(μ, \sigma^2)。
平均值为μ,方差为σ2的正态分布表示为N(μ,σ2)。
2. 标准正态分布
平均值为0,标准差为1的正态分布N(0,1)被称为标准正态分布。
当随机变数X呈正态分布时,假设随机变数X满足:
则随机变数Z呈N(0,1)的标准正态分布。
呈标准正态分布的概率密度函数为:
标准正态分布的概率密度函数的图像为:
3. 正态分布表
注意:前提是标准正态分布!!!
因为标准正态分布根据y轴对称,利用这一点,可以依据标准正态分布表来计算出一半,然后再×2,算出P(-u≤Z ≤u):
例如:根据上表,计算P(-1.96 ≤ Z ≤ 1.96)= P(1.96 × 2) = 0.4750 * 2 = 0.950
4. 标准正态分布重要的性值
随机变数Z呈标准正态分布N(0,1)时, -1.96 ≤ Z ≤ 1.96的面积占全体面积的95%。
5. 什么是推测统计
推测统计分为两个重要模块
- 推算
通过研究样本对母集团做出概率预测的“推算”。
比如,针对一部分有选举权的公民进行问卷调查之后,进行当选者预测。这种情况下,所有有选举权的公民是**“母集团”,而接收问卷调查的公民是“样本”**。
- 检验
针对已知数据的差值,找出产生差值原因的“检验”。
在判断“猜单双的赌博中,20次中有15次都是双数的话肯定是作弊了”以及“喝咖啡能长寿”这些说法的真伪时,用的是“检验”。
5.1 使用标准正态分布进行“推算”
理科实验中,为了保证测量仪器的精确度,一般都会记载测量值偏离平均值的标准差。
下面通过一个测量体重的实例来进一步验证“使用标准正态分布进行推算”
假设你站上标准差为100g的体重秤时,显示你是72.0kg,但是不要忘了测量是会产生误差的,这个数值或多或少会与你的真实体重存在一定偏差。在这种情况下,暂且推定测量出你“真正体重”的精度为95%(可信水平95%)。
假如你多次站上体重秤去测量,从而得出了一组样本数据。可以肯定的是,**这一数据样本几乎是在“真正的体重”值附近呈正态分布的。**也就是说,“真正的体重”与重复多次测量后得出的正态分布的平均值几乎一致。
当然,“真正的体重≈重复测量后得到的平均值”是同一个定数。现在把它设为μ。
“X=72.0kg”的测量值与μ之间偏离了多少?或者反过来说,推算μ处在偏离X值多少的位置上,是我们的目的。
首先,将数据变形为标准正态分布的数据。因为“标准差=100g=0.1kg”,所以:
一般来说,呈标准正态分布的Z的取值范围为-1.96~1.96时,是95%概率,即
-1.96≤Z≤1.96
将⑮式代入后得到:
也就是说,标准差为100g的体重计表示“72.0kg”时,你“真正的体重”(真实的数值)有95%的可信度在“71.804kg~72.196kg之间”
上面求出的“71.804kg~72.196kg”的范围在统计学上被称作95%的置信区间(是指由样本统计量所构造的总体参数的估计区间。)
“μ的95%置信区间是α≤μ≤β”是指:“在母集团中随机观测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么,在100次中大概有95次,μ的值落在a以上b以下的范围内。”
5.2 使用标准正态分布进行“检验”
统计学中的检验是一种合理判断数据是否存在异常的手段。
下面还是通过一个例子来理解:
假如你的同事A每天开车上班,过去的数据显示,他上班路上通常会花费30分钟(平均值μ),标准差为5分钟。有天早上,A告诉你,他今天上班需要39分钟。这是否是“异常”的现象呢?
让我们来“检验”一下“μ=30”的说法吧。
首先将数据标准化。将上班时间设为X的话,因为μ=30, σ=5,所以可以得出:
和先前一样,根据标准正态分布的性质,Z的取值范围为-1.96~1.96时,概率取95%。
-1.96≤Z≤1.96
代入上式得到:
根据以上结果,如果“μ=30”的说法正确,那么上班时间(X)应该在20.2分钟~39.8分钟之间。
用统计学研究事物时,(一般来说)有95%概率发生的事件被视为“发生概率较大”的事件,而除此之外的事件被视为“异常”。
39分钟的时间在所测算的时间范围内,不算是异常情况。也就是说,“X=39”这一数据,包含在“μ=30”与数据整合后的数据范围内。
6. t检验
首先,有95%概率发生的事件被视为“发生概率较大”的事件。以这一标准进行的检验被称为“有意水准5%验证”。
在已知母集团呈标准差为σ的正态分布时,建立“真正的平均值为μ”这一假说,并进行“有意水准5%验证”后,如果针对被观测的数据X来说:
以上不等式成立的话,我们就说“接受原假设”。反之,不等式不成立时,就说“拒绝原假设”。
顺便说一句,有名的t检验是利用了t分布进行的检验。而呈正态分布的母集团中抽出的数据样本呈标准正态分布(当数据量在数百甚至数千以上时,t分布与标准正态分布几乎一致)就十分接近于t分布。