1 基本概念准备
1.1 协方差
反应两个变量之间线性相关的强度,记为Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]
关于协方差的特性:
- 若协方差绝对值很大, 则变量值得变化很大, 且相距各自均值很远
- 若协方差为正, 则两变量x,y都倾向于取较大值, 若协方差为负, 则一个倾向于取较大值,另一个倾向取较小值
相关系数: 将每个变量归一化, 之衡量变量间的相关性, 不关注变量尺度大小, 公式如下:
通俗地讲, 协方差可以理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。
你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。
1.2 高斯分布
高斯分布(Gaussian distribution)有时也被称为正态分布(normal distribution),是一种在自然界大量的存在的、最为常见的分布形式。高斯分布的概率密度函数公式如下:
一维:
多维:
1.3 混合模型(Mixture Model)
混合模型是一个可以用来表示在总体分布(distribution)中含有 K 个子分布的概率模型,换句话说,混合模型表示了观测数据在总体中的概率分布,它是一个由 K 个子分布组成的混合分布。混合模型不要求观测数据提供关于子分布的信息,来计算观测数据在总体分布中的概率。
1.4 高斯混合模型(GMM)
高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
1.5 贝叶斯公式
由条件概率公式推导:
结合全概率公式:
公式中,事件的概率为,事件B已发生条件下事件的概率为,事件已发生条件下事件B的概率为。
1.6 矩阵行列式
一个n×n的方阵A的行列式记为det(A)或者|A|,一个2×2矩阵的行列式可表示如下:
2 EM算法在求解高斯混合模型参数中的应用
2.1 从EM算法开始
EM算法是一种解决存在隐含变量优化问题的有效方法。高斯混合模型是具体属于哪个高斯分布不定,参数未知(存在隐含变量),可以使用EM算法求解参数。看下EM算法的步骤:
给定初始的模型参数,然后E步骤和M步骤迭代:
E步骤 根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值:
M步骤 将似然函数最大化以获得新的参数值:
重复步骤E,M直到收敛。
对于混合高斯模型来说,待定参数指的是,
2.2 高斯混合模型代码实现
参考: