高斯分布,又称正态分布,应用于连续型随机变量分布的模型中,对于多元高斯分布存在和一元高斯相似的,对于多元实值向量,使熵取得最大值的是高斯分布。当多个随机变量之和相加时,根据拉普拉斯提出的中心极限定理(central limit theorem),⼀组随机变量之和(当然也是随机变量)的概率分布随着和式中项的数量的增加⽽逐渐趋向⾼斯分布,在实际应用中,随着样本数量的增加,分布会迅速收敛为高斯分布,二项分布当观测次数增多时,也会趋向于高斯分布( 二项分布、泊松分布和正态分布的区别及联系? - 知乎)。
首先,明确一元高斯分布的公式为:
一个y(也就是f(x))对应一个维度的x,当一元高斯分布拓展到多元高斯分布时,也就是多个x(x1,x2,x3……)意味着多个维度,也就意味着多个特征。
我们假设了多元高斯分布的各个维度之间,也就是各个x变量之间是相互独立的,在这个假设条件下,独立的多元高斯分布公式为:
其中:
代表变量X的协方差矩阵,i行j列的元素值表示xi于xj的协方差(注意:协方差矩阵其实可以理解为表示变量之间关系的表达,因为这里假设变量之间是相互独立的,因此只有对角线上的元素值是不为0的)
此外,协方差矩阵是一个实对称阵。
如果不同维度之间存在着关联,则称为相关多元正态分布,表示为: