先补一下基础知识:
这是我们小学就接触过的一元高斯分布,公式为:
一个y(也就是f(x))对应一个维度的x
现在我们将高斯分布扩展到多维空间,简单说就是有x1,x2,x3。。。xn等多个维度。当我们假设多维空间的每一个空间之间完全独立,则独立的n元高斯分布为:
其中:
xi表示第i维空间,或者简单说就是第i个特征。
独立二元高斯分布图如上可以看到上述的几何图的每一个纵切面都是一个一元高斯分布。
如果不同维度之间存在关联,则称为相关多元正态分布,在形式上:
相关多元高斯分布的
需要注意的是,在一元高斯的情况下,我们可以用特征的均值与方差来描述这个单元的高斯分布,但是多元高斯则使用的是所有特征的均值向量与协方差均值来描述多元的高斯分布。
显然相关多元高斯分布相对于独立多元高斯分布更加符合客观世界的规律,一般特征之间很难完全独立。
混合高斯分布就是讲多个高斯分布通过线性组合的方式加在一起:
机器学习算法总结(六)--EM算法与高斯混合模型 - 微笑sun - 博客园www.cnblogs.com高斯混合模型就是由多个高斯模型组合在一起的混合模型(可以理解为多个高斯分布函数的线性组合,理论上高斯混合模型是可以拟合任意类型的分布,另外需要注意的是,通过查阅sklearn的gmm的代码可以知道,面对多维度的数据的情况下,GMM使用的是相关多元高斯分布),例如对于下图中的数据集如果用一个高斯模型来描述的话显然是不合理的:
对于上图如果我们用两个高斯模型来描述,则如下
所以混合高斯分布的表达式如下:
其中αk是系数,αk ≥ 0,且所有的α总和为1,k表示第k个模型,其中Φ(y|θk) 是高斯分布密度ÿ