高斯分布(理论)

        高斯分布又称为正态分布。

1.一维的情况:

随机变量

 服从一个位置参数为 

 、尺度参数为 

 的概率分布,且其 概率密度函数为 

 

则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作

 ,读作 

 服从 

 ,或 

 服从正态分布。 

 时,正态分布就成为标准正态分布 

 

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

    

2.多维的情况:

1.多元正态分布的概率密度函数


  多元是指样本以多个变量来描述(特征个数),或具有多个属性,在此一般用d维特征向量表示,X=[x1,…,xd]T。d维特征向量的正态分布用下式表示

  

(1)   其中μ是X的均值向量,也是d维, 


   μ=E{X}=[μ1,μ2,…,μd]T (2)


  Σ是d×d维协方差矩阵,而Σ^(-1)是Σ的逆矩阵,|Σ|是Σ的行列式


   Σ=E{(X-μ)(X-μ)T} (3)


  Σ是非负矩阵,在此我们只考虑正定阵,即|Σ|>0。


  多元正态分布与一元正态分布在形式上尽管不同,但有很多相似之处,实际上单变量正态分布只是维数为1的多元分布。当d=1时,协方差Σ只是一个1×1的矩阵,也就是只有1个元素的矩阵,退化成一个数(就是方差咯),|Σ|^(1/2)也就是标准差σ,Σ^(-1)也就是σ^(-2),而(X-μ)T(X-μ)也变成(X-μ)^2,因此(1)也就演变成(4)

 (4) 

但是多元正态分布要比单变量时复杂得多,具有许多重要的特性,下面只就有关的特性加以简单叙述。


  多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数(特征向量个数),也就是维数。为了方便我们着重讨论二维向量(如X=(x1,x2)),是一个随机向量,其中每一个分量都是随机变量,服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系(维之间的相关性,或者说特征之间的相关性,比如对于二维向量X=(x1,X2),如果存在x2=2*x1,显然特征x2和特征x1是线性相关的)。

下图的例子中的两个二元正态分布的各个分量是相同的,即它们的期望(μ1和μ2)和方差(σ1和σ2)都相同,但这两个特征向量在空间的分布却不相同。如下图所示:

   

对右图来说,x1和x2有很大的相关性,而对左图来说,随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时,另一分量x2也必然较小。而当随机变量的x1较大时,则其相应的x2分量也较大。换句话说,如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时,也常伴有x2-μ2<0 ,这说明它们之间有联系,或称相关性,用

这两项相乘来看就有倾向化。对整个随机变量样本集(samples)取期望值,就会使 

有非零值。反过来看左图中的随机变量分布,就没有这种规律,一个随机变量x1分量小于其均值 ,并不对其相应分量x2与均值之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负,则也就是,均值 

就可能接近于零,或等于零。因此我们可以用 

来衡量这种相关性,称为协方差。由此可知,对于x1和x2很相关是,那么它们直接的协方差是个正数,而后一种情况,协方差就很可能为零,协方差越大,说明两个变量的相关度越高。为了将各个分量的方差、协方差都用一个统一的方式表示,则可使用式(3),用符号Σ表示。你如果将式(3)表示一个二维向量,你就会发现该矩阵的非对角元素正表示了两个分量之间的相关性,而主对角元素则是各分量本身的方差。 
    

 (5) 
  Σ称为协方差矩阵。 
  那么以下是上两图特征向量分布的协方差矩阵: 
    

和 

, 

请问哪个是左图,哪个是右图?(前一个是左图)
  

如果是一个三维向量,它的协方差矩阵是几乘几的矩阵?每个元素又对应什么含义?
  (是个3×3矩阵,

 ) 
  还需要指出的是,协方差矩阵并不只对正态分布有用,它是多元随机变量中一个重要的数学统计表示方法,它描述了一个随机变量样本集中各个分量之间的相关性。 


协方差矩阵还有一些很重要的属性,是经常用到的。

(1)其中一个特性是:它是一个对称矩阵,它的第i行第j列元素,则应有

。这就是说与第j行第i列的元素是相同的,这就是对称性。 

(2)另一个特性是:由于它的主对角元素都是各分量的方差,因此一般情况下都是大于零的值。因此协方差矩是正定的,这一点也是十分有用的。

 ------------------------------------------------------------------------------------------

下面是二元高斯分布的一般式:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值