概率统计-方差与正态分布(高斯分布)

方差

方差表示的是一组数据相对于平均数 μ \mu μ的离散程度

在数据统计中,大部分情况下都是不能对总体的数据进行统计。比如统计一批键盘使用寿命,如果键盘都去做寿命测试,那都测坏了没法卖钱养家了。
此时需要从一批键盘中随机挑选一些键盘去代表总数进行测试。即抽取一些样本,对样本的计算结果去估计总体的一些情况。

平均数的计算公式 μ \mu μ = ∑ i = 1 n x i n \frac {\sum_{i=1}^n x_i} {n} ni=1nxi , 样本的平均数和总体的平均数求法一致的;

总体方差的计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n} ni=1n(xiμ)2

样本方差计算公式 σ 2 \sigma^2 σ2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac{ {\sum_{i=1}^n} {(x_i - \mu )^2} } {n-1} n1i=1n(xiμ)2

之所以分母是n-1,在样本数据足够大且无异常数据的情况下,分母可以为n 。
结论:样本估计的方差是总体方差的 n − 1 n \frac {n−1} {n} nn1倍,样本方差的期望是总体方差的一个无偏估计 。
无偏估计:是多次随机取样本计算,此时样本就会无限接近总体计算值,这个过程就是无偏估计

n n − 1 S 2 \frac {n} {n-1}S^2 n1nS2 = n n − 1 \frac {n} {n-1} n1n ∑ i = 1 n ( x i − μ ) 2 n \frac {\sum_{i=1}^n (x_i - \mu)^2} {n} ni=1n(xiμ)2 = ∑ i = 1 n ( x i − μ ) 2 n − 1 \frac {\sum_{i=1}^n (x_i - \mu)^2} {n-1} n1i=1n(xiμ)2

正态分布(高斯分布)

正态分布,常态分布,高斯分布在不同的文章中会有不同的说法,他们的意义都是一样的。
通过上面的公式, 方差表示的是,观察数据偏离中心趋势(就是平均数)的离散程度。平均数表示观察数据的一般化情况。
知道观察数据的一般化情况和观察数据离散程度,那么就能得出很多特性了。
比如在平均数左右区间范围内,通过这个区间范围与 σ \sigma σ 标准差进行比较,就能得出对应的概率是多少,如果这种方式放到计算机中求一些大于某个数的概率是多少,计算机算法复杂度将会降到O(1)。由此就可以引出正态分布这个利器了,正态分布是前人已经整理好的东西,我们直接使用其结论解决问题就可以了。

正态分布的公式 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 e − ( x − μ ) 2 2 σ 2 e^{- \frac {(x-\mu)^2} {2 \sigma^2}} e2σ2(xμ)2 也可以表示成 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} 2σ2(xμ)2 } 。

得到了计算公式,标准差 σ \sigma σ 为 2,平均数为 μ \mu μ 为 0。得到如下图。
在这里插入图片描述

正态分布高的意义

之前一直好奇,正态分布图像的高是什么意思。可以通过计算得出,根据上面已知的 σ \sigma σ μ \mu μ,带入公式,可以的出 f ( 0 ) f(0) f(0)等于 0.19947114020071635
那么高的意义是什么呢:
正态分布在计算概率密度时候,是根据距离中心值(平均值)的距离,然后求出对应图像的面积即是对应的概率;
如上所述,既然是求得面积得出对应的概率值。有了与中位值的距离,也就是宽。那么也应该需要有高。这里的高就是正态分布曲线存在的意义;
有时候离散程度( σ \sigma σ 标准差)大一点,那么这个纵轴就需要配合着降低点高度。因为图形面积(概率密度)要保证在距离中心位置( μ \mu μ平均数)的 σ \sigma σ标准差 范围内是一个固定值;这里也是体现正态分布纵轴(高度)的意义。
从正态分布的特性中,都知道,在距离一个 若干倍的 σ \sigma σ 范围内概率 是 固定值

下图可以看出,在若干倍的 σ \sigma σ 范围内的概率分布。所以正态分布都是前人准备好的,根据横轴就能得出概率密度了。

正态分布函数与函数积分 Java代码实现

为了能够快速验证,把Java代码贴出来。
normfun是正态分布函数 f ( x ) f(x) f(x) = = = 1 σ 2 π \frac{1} {\sigma \sqrt{2 \pi} } σ2π 1 exp{ − ( x − μ ) 2 2 σ 2 {- \frac {(x-\mu)^2} {2 \sigma^2}} 2σ2(xμ)2 } 的代码。

代码的mu变量是公式中的 μ \mu μ 平均数,sigma变量是公式中的 σ \sigma σ 标准差,x就是变量中的x。

private static double normal(double x, double mu, double sigma) {
    double denominator = Math.pow(Math.E, -(((x - mu) * (x - mu)) / (2 * sigma * sigma)));
    double numerator = sigma * Math.sqrt(Math.PI * 2);
    return denominator / numerator;
}

验证正态分布函数是否满足性质,需要对正态分布函数求定积分,如下代码贴出了正态分布函数的定积分代码。

private static double calculate(double upperLimit, double lowerLimit) {
    double distence = 0.01;
    double count = (upperLimit - lowerLimit) / distence;
    double sum = 0;
    for (double i = 0; i < count; i++) {
        double calSum = lowerLimit + distence * i;
        double fxHigh = normal(calSum, 0, 2);
        double fxSquare = fxHigh * distence;
        sum += fxSquare;
    }
    return sum;
}

水平原因,错误难以避免,希望批评并不吝指出,谢谢!

  • 22
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
二项分布、泊松分布、正态分布和t分布都是常见的概率分布模型。它们之间的特征以及均值和方差可以通过以下方式进行比较: 1. 二项分布是一种离散概率分布,适用于具有固定样本数和二元结果的事件。它的特征是具有固定的成功概率和试验次数。二项分布的均值为样本数乘以成功概率方差为样本数乘以成功概率乘以失败概率。 2. 泊松分布也是一种离散概率分布,适用于描述发生某一事件的次数的模型。它的特征是事件在时间上独立地发生,并且平均发生率是固定的。泊松分布的均值和方差都等于平均发生率。 3. 正态分布是一种连续概率分布,也被称为高斯分布。它的特征是具有对称的钟形曲线和无穷尾巴。正态分布的均值决定了曲线的位置,方差决定了曲线的宽度。正态分布的均值和方差都可以通过统计数据进行估计。 4. t分布是一种连续概率分布,用于估计小样本的均值。它的特征是相对于正态分布而言,它的曲线更平坦,更宽。t分布的均值为0,方差为自由度除以自由度减1。 因此,可以看出,二项分布和泊松分布都是离散概率分布,而正态分布和t分布都是连续概率分布。二项分布和泊松分布的均值和方差可以通过固定的参数计算,而正态分布和t分布的均值和方差则可以通过统计数据进行估计。此外,t分布相对于正态分布而言,更适用于小样本数据的推断。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值