一、简介
高斯分布是一种重要的模型,也被称作正态分布,其广泛应用与连续型随机变量的分布中。在数据分析领域中高斯分布占有重要地位。掌握高斯分布是学习数据分析的重要基础,下面就结合理论公式和其几何图形来阐述。
高斯分布会在许多问题中产生。例如,对于一个一元实值向量,使熵取得最大值的是高斯分布;中心极限定理告诉我们:一组随机变量之和的概率分布随着和式中项的数量的增加而逐渐趋向于高斯分布。如果有N个均匀分布在区间 [ 0 , 1 ] [0,1] [0,1]的变量 x 1 , x 2 , . . . , x N x_1,x_2,...,x_N x1,x2,...,xN,其均值 1 N ∑ i = 1 i = N x i \frac{1}{N}\sum_{i=1}^{i=N}x_i N1∑i=1i=Nxi的分布,对于N很大时,这个分布趋向于高斯分布,当N增大时,其均值的分布如下图(图片来源于:《模式识别与机器学习》)所示。
二 、一元高斯分布
若随机变量 X X X服从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的高斯分布,那么:
f ( x ; μ , σ ) = 1 σ ( 2 π ) 1 2 e x p ( − ( x − μ ) 2 2 σ 2 ) f(x;\mu,\sigma)= \dfrac{1}{\sigma(2\pi)^{\frac{1}{2}}}exp(-\dfrac{(x-\mu)^2}{2\sigma^2}) f(x;μ,σ)=σ(2π)211exp(−2σ2(x−μ)2)
高斯分布的图形像钟一样,下图展示了一般正态分布的图形。其中 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1。
对于一个非标准的正态分布,可以由标准正态分布经过以下3步变换得到:
- 将x向右移动u个单位
- 将密度函数x轴延展sigma倍
- 将函数密度图像y轴压缩 σ \sigma σ倍
如果 X X X服从分布, X ∼ N ( μ , σ 2 ) X\thicksim N(\mu,\sigma^2) X∼N(μ,σ2),那么具有以下的性质:
- 如果 a , b a,b a,b是实数,那么 a X + b ∼ N ( a μ + b , ( a σ ) 2 ) aX+b\thicksim N(a\mu+b,(a\sigma)^2) aX+b∼N(aμ+b,(aσ)2)
- 如果 Y ∼ N ( μ y , σ y 2 ) Y\thicksim N(\mu_y,\sigma_y^2) Y∼N(μy,σy2), X ∼ N ( μ x , σ x 2 ) X\thicksim N(\mu_x,\sigma_x^2) X∼N(μx,σx2),且 X , Y X,Y X,Y相互独立,那么 X + Y ∼ N ( μ x + μ y , σ x 2 + σ y 2 ) X+Y\thicksim N(\mu_x+\mu_y,\sigma_x^2+\sigma_y^2) X+Y∼N(μx+μy,σx2+σy2), X − Y ∼ N ( μ x − μ y , σ x 2 + σ y 2 ) X-Y\thicksim N(\mu_x-\mu_y,\sigma_x^2+\sigma_y^2) X−Y∼N(μx−μy,σx2+σy2)
- 如果 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn为独立标准正态分布,那么 X 1 2 + X 2 2 + . . . + X n 2 X_1^2+X_2^2+...+X_n^2 X12+X22+...+Xn2服从自由度为n的卡方分布。
三、多元高斯分布
1、独立多元高斯分布
假设 n n n个变量 x = [ x 1 , x 2 , . . . , x n ] T \boldsymbol{x}=[x_1,x_2,...,x_n]^T x=[x