正态分布（高斯分布）相关概念

「已注销」

已于 2024-02-26 22:46:10 修改

阅读量3.3k

点赞数 41

分类专栏：数学文章标签：学习

于 2024-02-26 22:44:20 首次发布

本文链接：https://blog.csdn.net/lglrkx/article/details/136288223

版权

数学专栏收录该内容

3 篇文章

订阅专栏

正态分布（高斯分布）:

正态分布，也称为高斯分布，是概率统计学中一种重要的概率分布，通常用于描述自然界中的许多现象。正态分布的特点是其钟形曲线，对称分布于均值周围。正态分布的曲线呈现出一个峰值，这个峰值对应于均值 $\mu$ ，而分布的尾部则逐渐延伸开来。

正态分布的概率密度函数（Probability Density Function，PDF）可由以下公式表示：

$f(x) = \frac{1}{\sigma\sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$

其中：

$f(x)$ 是在 $x$ 处的概率密度值。
$\mu$ 是分布的均值。
$\sigma$ 是分布的标准差。

概率密度值:

概率密度值是概率密度函数（Probability Density Function，PDF）在某一特定点上的值。在连续型随机变量的概率分布中，概率密度函数描述了随机变量落在某个区间内的概率。

对于概率密度函数 $f(x)$ ，在某一点 $x$ 处的概率密度值 $f(x)$ 并不直接给出事件发生的概率。相反，概率密度函数的性质是，概率在一点上没有直接的物理意义，而是通过对连续概率密度函数进行积分得到。具体来说，对于一个区间 $[a,b]$ 上的概率，可以通过概率密度函数在该区间上的积分来计算：

$P(a\leq X\leq b) = \int_{a}^{b}f(x)dx$

其中， $P(a\leq X\leq b)$ 表示随机变量 $X$ 落在区间 $[a,b]$ 内的概率。

概率密度值的主要作用是描述随机变量在不同取值上的相对可能性。更大的概率密度值意味着在该点附近取得相应取值的可能性较大。但是概率密度值并不是直接的概率，而是用于构建概率分布曲线，通过曲线下的面积来计算概率。

均值和标准差对正态分布曲线的作用：

均值 $\mu$ 决定了曲线的中心位置，而标准差 $\sigma$ 则决定了曲线的宽度。

具体而言，正态分布的性质如下：

均值（ $\mu$ ）： 曲线的峰值位于均值处，而且曲线是关于均值对称的。
标准差（ $\sigma$ ）： 标准差决定了曲线的宽度。当标准差较大时，曲线较为扁平，即数据分布较为分散；当标准差较小时，曲线较为陡峭，数据分布较为集中。
曲线的形状： 正态分布的概率密度函数呈现出典型的钟形曲线，两侧尾部逐渐下降，这种形状是由指数函数的幂指数项 $-\frac{1}{2}\left ( \frac{x-\mu}{\sigma} \right )^2$ 所导致。

下图所示，不同均值和标准差所绘制的曲线有所不同。

68-95-99.7规则：

在正态分布中，数据集中的大约68%的数据在均值的1个标准差范围内，95%在2个标准差范围内，99.7%在3个标准差范围内，换言之该数据集数据极不可能出现在3个标准差范围之外。

具体来说：

1. 约68%的数据在均值的一个标准差范围内： $(\mu -\sigma,\mu+\sigma)$
2. 约95%的数据在均值的两个标准差范围内： $(\mu-2\sigma,\mu-2\sigma)$
3. 约99.7%的数据在均值的三个标准差范围内： $(\mu-3\sigma,\mu-3\sigma)$

这个规则对于理解数据的分布和判断是否符合正态分布是很有帮助的。在实际应用中，如果数据大致符合正态分布，我们可以使用这个规则来估计数据集中的观测值相对于均值的位置。

标准化（Z变换）：

标准化（Normalization）是将数据转换为具有特定范围或标准分布的过程。标准化通常指将数据集合的数值按照标准差进行标准化，使其具有平均值为0，标准差为1的特性。这通常称为Z-score标准化。

标准差的标准化公式为：

$Z = \frac{X-\mu}{\sigma}$

其中：

$Z$ 是标准化后的值；
$X$ 是原始数据点；
$\mu$ 是数据集的平均值；
$\sigma$ 是数据集的标准差。

下图所示标准化的正态分布曲线：

标准化后的数据具有相对于原始数据集的均值和离散度的统计特性。

标准化后68-95-99.7规则分布如下:

        1. 约68%的数据在均值的一个标准差范围内： $(-1,1)$
        2. 约95%的数据在均值的两个标准差范围内： $(-2,2)$
        3. 约99.7%的数据在均值的三个标准差范围内： $(-3,3)$

进行Z变换之后可以使用查表法计算变量值 $Z$ 对应的累积分布函数值 $P(Z\leq z)$ ，则 $P(Z \leq -z) = P(Z\geq z) = 1 - P(Z\leq z)$ ， $P(-z\leq Z\leq z) = P(Z\leq z)-P(Z\leq -z)$ 具体方法不在这里赘述。

下面是使用Python求解概率密度：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.integrate import quad

mu = 0
sigma = 1
x = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 1000)

pdf_values = norm.pdf(x, mu, sigma)
plt.plot(x, pdf_values)

# 在指定范围内计算概率密度
lower_bound = -1
upper_bound = 1

def pdf_range(x):
    return norm.pdf(x, mu, sigma)

# 计算指定范围的概率密度
area_under_curve, _ = quad(pdf_range, lower_bound, upper_bound)

plt.fill_between(x, pdf_values, where=((x >= lower_bound) & (x <= upper_bound)), alpha=0.3, color='blue')
plt.text(-2, 0.25, f'{area_under_curve:.4f}', fontsize=10)
plt.show()

运行结果如下：