em算法python实现_关于EM算法原理的分析与理解(Python实现)

本文的计算公式出自《统计学习方法》,写这篇文章主要是想把自己对这个算法的思路理清,并把自己的理解记录下来,同时分享出来,希望能够帮助到打算入门机器学习的人。定义:概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数,但是,当模型含有隐变量时,就不能简单地使用这些估计方法了。EM算法就是含有隐变量的概率...
摘要由CSDN通过智能技术生成

本文的计算公式出自《统计学习方法》,写这篇文章主要是想把自己对这个算法的思路理清,并把自己的理解记录下来,同时分享出来,希望能够帮助到打算入门机器学习的人。

定义:

概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数,但是,当模型含有隐变量时,就不能简单地使用这些估计方法了。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。

算法原理:

一般用Y表示观测随机变量的数据,Z表示隐随机变量的数据,theta是估计的模型参数。

EM算法通过迭代求

L_theta1.PNG

的极大似然估计,每次迭代包含两步:E步,求期望;M步,求极大化。

将极大似然函数展开得到:

9.PNG

该极大似然函数的展开式的意思是:在模型参数中隐变量Z的条件概率与在隐变量下观测变量的条件概率乘积是一次操作中观测变量的概率,而求和则是所有操作中观测变量的概率。

该极大似然函数是无法求解的,事实上EM算法是通过不断的迭代近似极大化极大似然函数的。

为了新模型参数估计值能使极大似然函数极大化,则考虑第i+1次迭代与第i次迭代的差,通过不断求解差值的极大化,从而求得第i+1次迭代的极大化。

6.PNG

7.PNG

8.PNG

看到这里就可以知道,通过取全数据对数似然的期望最大化,就可以最大化式子(9.1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GMM(Gaussian Mixture Model)是一种基于高斯分布的概率模型,常用于聚类或密度估计。EM(Expectation-Maximization)算法是一种迭代算法,通常用于GMM的参数估计。下面是使用Python实现GMM和EM算法的示例代码: ``` import numpy as np from sklearn.mixture import GaussianMixture # 生成随机数据 np.random.seed(0) X = np.concatenate([np.random.randn(100, 2) + [2, 2], np.random.randn(100, 2) + [-2, -2], np.random.randn(100, 2) + [2, -2]]) # 初始化GMM模型 gmm = GaussianMixture(n_components=3, covariance_type='full') # 训练模型 gmm.fit(X) # 打印聚类结果 print(gmm.predict(X)) # 打印GMM模型参数 print('Means:') print(gmm.means_) print('Covariances:') print(gmm.covariances_) print('Weights:') print(gmm.weights_) ``` 这段代码使用了`sklearn.mixture.GaussianMixture`类,它可以方便地进行GMM模型的训练和参数估计。其中,`n_components`参数指定了聚类个数,`covariance_type`参数指定了协方差矩阵类型。在上面的例子中,我们使用了`'full'`类型,即完整协方差矩阵。 下面是使用Python实现EM算法的示例代码: ``` import numpy as np # 初始化参数 np.random.seed(0) K = 3 N = 300 mu = np.array([[-2, 2], [2, 2], [0, -2]]) sigma = np.array([[[1, 0], [0, 1]], [[1, 0.5], [0.5, 1]], [[0.5, 0], [0, 0.5]]]) alpha = np.ones(K) / K x = np.zeros((N, 2)) for i in range(K): x[i * 100:(i + 1) * 100, :] = np.random.multivariate_normal(mu[i, :], sigma[i, :, :], 100) # EM算法迭代 for t in range(10): # E步:计算后验概率 gamma = np.zeros((N, K)) for k in range(K): gamma[:, k] = alpha[k] * np.exp(-0.5 * np.sum((x - mu[k, :]) ** 2 / sigma[k, :, :], axis=1)) / np.sqrt(np.linalg.det(sigma[k, :, :])) gamma /= np.sum(gamma, axis=1, keepdims=True) # M步:更新模型参数 for k in range(K): Nk = np.sum(gamma[:, k]) mu[k, :] = np.sum(gamma[:, k].reshape(-1, 1) * x, axis=0) / Nk sigma[k, :, :] = np.sum(gamma[:, k].reshape(-1, 1, 1) * np.matmul((x - mu[k, :]).reshape(-1, 2, 1), (x - mu[k, :]).reshape(-1, 1, 2)), axis=0) / Nk alpha[k] = Nk / N # 打印模型参数 print('Iteration', t + 1) print('Means:') print(mu) print('Covariances:') print(sigma) print('Weights:') print(alpha) ``` 这段代码使用了EM算法来估计GMM模型的参数。其中,`mu`、`sigma`和`alpha`分别表示高斯分布的均值、协方差矩阵和权重,`gamma`表示后验概率。在每一轮迭代中,首先计算后验概率,然后根据后验概率更新模型参数。迭代结束后,打印出模型参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值