EM 算法在GMM中的应用

最新推荐文章于 2020-07-23 09:47:30 发布

Distrlili

最新推荐文章于 2020-07-23 09:47:30 发布

阅读量973

点赞数

分类专栏： R programing 文章标签：算法

本文链接：https://blog.csdn.net/G090909/article/details/50166751

版权

R programing 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

EM算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测到的隐变量。

EM估计GMM参数
1）初始值：
方1：协方差矩阵Σk设为单位矩阵，每个模型比例的先验概率πk=1/N，均值uk设为随机数。

方2：由k均值（k-means）聚类算法对样本进行聚类，利用各类的均值作为uk，并计算Σk，πk取各类样本占样本总数的比例。
一般选用方法一。
2）EM算法：

E-Step ：E就是Expectation的意思，就是假设模型参数已知的情况下求隐含变量Z分别取z1,z2,…的概率。在GMM中就是求数据点由各个 component生成的概率。

$\gamma(i,k)=\alpha_k*Pr(Z_k|x_i,\pi,\mu,\Sigma)$ ——就是当前观测数据属于第k个componen的概率

注意到我们在Z的后验概率前面乘以了一个权值因子 $α_k$ ，它表示选中类别 $z_k$ 的频率，在GMM中它就是 $π_k$ 。

M-Step: M就是Maximization的意思，就是用最大似然的方法求出模型参数。现在我们认为上一步求出的r(i,k)就是“数据点xi由component k生成的概率”。根据公式(3),(4),(5)可以推出均值、协方差和权值的更新公式为：
$N_k=\sum_{i=1}^N\gamma(i,k)$

$\mu(k)=\frac{1}{N_k} \sum_{i=1}^N \gamma(i,k)x_i$

$\pi(k)=\frac{N_k}{N}$

$\Sigma_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(i,k)\left(x_i-\mu_k\right)\left(x_i-\mu_k\right)^T$

3）收敛条件：
不断地迭代E和M步骤，重复更新上面的三个值，直到参数的变化不显著。

GMM是一种聚类算法，每个component就是一个聚类中心。即在只有样本点，不知道样本分类（含有隐含变量）的情况下，计算出模型参数（π，u和Σ），这可以用EM算法来求解。再用训练好的模型去差别样本所属的分类，方法是：step1随机选择K个component中的一个（被选中的概率是πk）；step2把样本代入刚选好的component，判断是否属于这个类别，如果不属于则回到step1。

R中的包mclust可用于分析高斯混合模型的聚类
例如：
##基于GMM的模型的聚类分析,GMM中的每一个高斯分布都可以代表数据的一类

library(mclust)
mc <- Mclust(iris[,1:4],3)
plot(mc,what="classification",dimens=c(3,4))
table(iris$Species,mc$classification)
             1  2  3
  setosa     50  0  0
  versicolor  0 45  5
  virginica   0  0 50

Distrlili

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EM 算法在GMM中的应用

EM算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测到的隐变量。EM估计GMM参数 1）初始值：方1：协方差矩阵Σk设为单位矩阵，每个模型比例的先验概率πk=1/N，均值uk设为随机数。方2：由k均值（k-means）聚类算法对样本进行聚类，利用各类的均值作为uk，并计算Σk，πk取各类样本占样本总数的比例。一般选用方法一。 2）EM算法：E-Step ：E就是E
复制链接

扫一扫

专栏目录