高斯分布与概率密度函数

一、均值、方差、标准差

  
1. 均值(Mean):

  • 均值是数据集中所有数值的总和除以数值的个数。
  • 它是数据集中所有数据点的平均水平或中心位置。
  • 均值的计算公式为:均值 ( μ ) = 1 N ∑ i = 1 N x i (\mu)= \frac{1}{N}\sum_{i=1}^N x_i (μ)=N1i=1Nxi,其中 N N N是数据点的总数, x i x_i xi是每个数据点。

2. 方差(Variance):

  • 方差是衡量数据点偏离均值的一种度量。
  • 它表示每个数据点与均值的差的平方的平均值,反映了数据的离散程度
  • 方差的计算公式为:方差 ( σ 2 ) = 1 N ∑ i = 1 N ( x i − μ ) 2 (\sigma^2)=\frac{1}{N}\sum_{i=1}^N (x_i -\mu)^2 (σ2)=N1i=1N(xiμ)2,其中 μ \mu μ是均值。

3. 标准差(Standard Deviation):

  • 标准差是方差的平方根,它与原始数据具有相同的单位。
  • 标准差提供了数据集中数值相对于均值的离散程度的度量。
  • 标准差的计算公式为:标准差 ( σ ) = 方差 = 1 N ∑ i = 1 N ( x i − μ ) 2 (\sigma)=\sqrt{方差} =\sqrt{\frac{1}{N}\sum_{i=1}^N (x_i -\mu)^2} (σ)=方差 =N1i=1N(xiμ)2
      

均值、方差和标准差共同提供了对数据集的全面描述:

  • 均值给出了数据集的中心趋势。
  • 方差和标准差提供了数据集的离散程度或变异性的度量。
  • 在正态分布中,均值、方差和标准差是描述分布形状的关键参数。

  
    标准差越大,数据点相对于均值的离散程度越大,即数据点分布得更广。标准差越小,数据点越集中,离散程度越小,即数据点更接近均值。

        在实际应用中,均值可以告诉我们数据集的一般水平,而标准差则告诉我们数据点通常偏离这个水平多远。方差虽然提供了相同的信息,但由于其单位是原始数据单位的平方,因此在解释上不如标准差直观。
  

二、概率密度函数

  
     概率密度函数(Probability Density Function,PDF)是连续型随机变量分布的描述方式。对于一个连续型随机变量
X X X,其概率密度函数 f ( x ) f(x) f(x)定义如下:

  1. 非负性:对于所有的 x x x,有 f ( x ) ≥ 0 f(x)\geq0 f(x)0
  2. 归一性:概率密度函数在整个定义域上的积分等于1,即: ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty} f(x)dx=1 +f(x)dx=1
  3. 概率的计算:随机变量 X X X在区间 [ a , b ] [a,b] [a,b] 内取值的概率等于该区间上概率密度函数的积分,即:
    p ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x p(a \leq X \leq b) = \int_{a}^{b} f(x)dx p(aXb)=abf(x)dx

    概率密度函数的图形可以提供随机变量分布的视觉表示。例如,正态分布的概率密度函数图形是一个对称的钟形曲线,其均值决定了曲线的中心位置,标准差决定了曲线的宽度。

不同类型的连续型随机变量有不同的概率密度函数。以下是一些常见的概率密度函数的例子:
    

  • 均匀分布:如果随机变量 X X X 在区间 [ a , b ] [a,b] [a,b] 上是均匀分布的,其概率密度函数为:
    f ( x ) = { 1 b − a ,  for  a ≤ x ≤ b   0 , otherwise f(x)= \begin{cases} \frac{1}{b-a},&\text{ for $a \leq x \leq b$ }\\ 0,&\text{otherwise} \end{cases} f(x)={ba1,0, for axb otherwise
        
  • 正态分布(高斯分布):正态分布的概率密度函数为:
    f ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sigma\sqrt{2\pi}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x)=σ2π 1exp(2σ2(xμ)2)
    其中, μ \mu μ是均值, σ \sigma σ是标准差
        
  • 指数分布:指数分布的概率密度函数为:
    f ( x ) = λ e − λ x f(x)=\lambda e^{-\lambda x} f(x)=λeλx
    其中, λ \lambda λ是分布的参数,且 x ≥ 0 x\geq 0 x0

三、高斯分布简介及定义

  
    正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

    若随机变量 X X X服从一个数学期望为 μ \mu μ、方差为 σ 2 \sigma^2 σ2的正态分布,记为 N ( μ , σ 2 ) N(μ,σ2) N(μσ2)。其概率密度函数为正态分布的期望值 μ \mu μ决定了其位置,其标准差 σ \sigma σ决定了分布的幅度。 μ = 0 , σ = 1 \mu = 0,\sigma = 1 μ=0,σ=1时的正态分布是标准正态分布
  

一维正态分布

若随机变量 X X X服从一个位置参数为 μ \mu μ 、尺度参数为 σ \sigma σ 的概率分布,且其概率密度函数
f ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sigma\sqrt{2\pi}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x)=σ2π 1exp(2σ2(xμ)2)

则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),读作 X X X服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) ,或 X X X服从正态分布。

  

标准正态分布

μ = 0 , σ = 1 \mu = 0,\sigma = 1 μ=0,σ=1时的正态分布是标准正态分布

f ( x ) = 1 2 π e x p ( − ( x 2 2 ) f(x)=\frac{1}{\sqrt{2\pi}}exp\left(-\frac{(x^2}{2}\right) f(x)=2π 1exp(2(x2)

四、正态分布的性质

在这里插入图片描述

  1. 曲线在 x x x轴的上方,与 x x x轴不相交;
  2. 曲线是单峰的,它关于直线 x = μ x=\mu x=μ对称;
  3. 曲线在 x = μ x=\mu x=μ处达到峰值 1 σ 2 π \frac{1}{\sigma\sqrt{2\pi}} σ2π 1
  4. 曲线与 x x x围成的面积是1;
    在这里插入图片描述
  5. σ \sigma σ一定时,曲线的位置由 μ \mu μ确定,随着 μ \mu μ的变化沿着 x x x轴平移;
  6. 由于曲线与 x x x围成的面积是固定的,那么当 μ \mu μ一定时,曲线的形状就由 σ \sigma σ确定, σ \sigma σ越小(越集中),曲线就高瘦, σ \sigma σ越大(越分散),曲线就矮胖。

    
3 σ \sigma σ原则

“小概率事件”和假设检验的基本思想:“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件不会发生,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。
在这里插入图片描述
    高斯分布作为分布特性的一种,首先是用来描述统计对象的,如果统计对象的分布特性符合高斯分布,那么所有针对高斯分布的定理和“经验值”就能够直接套用。而高斯分布本身在自然界的应用是非常广泛的,用一句话解释高斯分布所表现的分布特点就是“一般般的很多,极端的很少”。
p ( μ − σ ≤ X ≤ μ + σ ) ≈ 0.6826 p ( μ − 2 σ ≤ X ≤ μ + 2 σ ) ≈ 0.9544 p ( μ − 3 σ ≤ X ≤ μ + 3 σ ) ≈ 0.9974 p(\mu-\sigma \leq X \leq \mu+\sigma )\approx 0.6826 \\ p(\mu-2\sigma \leq X \leq \mu+2\sigma )\approx 0.9544 \\ p(\mu-3\sigma \leq X \leq \mu+3\sigma )\approx 0.9974 p(μσXμ+σ0.6826p(μ2σXμ+2σ0.9544p(μ3σXμ+3σ0.9974

五、正态分布的应用示例

  

1. 医学诊断:

  • 例如,血液中的某些生化指标,如血糖水平,通常假设为正态分布。医生可能会根据正态分布的特性来确定血糖水平是否在正常范围内。

2. 教育评分:

  • 在学校中,学生的考试成绩可能被假设为正态分布,教师使用这个分布来确定成绩的分布情况,比如计算平均分、标准差,并据此判断学生的表现。

3.产品尺寸控制:

  • 制造业中,产品的尺寸(如螺丝的直径)可能会被控制在正态分布的特定范围内,以确保产品质量和一致性。

4.投资组合风险管理:

  • 金融分析师可能会使用正态分布来估计投资组合的预期收益和风险,通过计算均值和标准差来评估投资组合的表现。

5.保险定价:

  • 保险公司可能会使用正态分布来估计索赔的概率,从而确定保险费率,确保公司能够覆盖潜在的索赔成本。

6.环境监测:

  • 环境科学家可能会使用正态分布来分析环境数据,如大气中的污染物浓度,以评估污染水平是否超出正常范围。

7.心理测量:

  • 心理学家使用标准化测试,如智商测试,这些测试的得分通常假设为正态分布,以便于比较不同个体的智力水平。

8.农业产量预测:

  • 农业科学家可能会使用正态分布来预测作物的产量,通过分析历史数据来估计未来的产量分布。

9.通信信号分析:

  • 在无线通信中,信号的噪声可能被假设为正态分布,这有助于工程师设计信号处理算法,以减少噪声对通信质量的影响。

10. 物理实验数据分析:

在粒子物理学实验中,粒子的动量或能量的测量结果可能服从正态分布,这有助于科学家分析实验数据并得出结论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值