数据挖掘领域十大经典算法之—EM算法

最新推荐文章于 2024-08-17 11:24:13 发布

fuqiuai

最新推荐文章于 2024-08-17 11:24:13 发布

阅读量4.5w

点赞数 44

分类专栏：数据挖掘文章标签：数据挖掘 python EM算法

本文链接：https://blog.csdn.net/fuqiuai/article/details/79484421

版权

本文详细介绍了数据挖掘中的经典算法—EM算法，包括最大似然概率的概念、EM算法的由来及其推导过程，以及EM算法在解决存在隐含变量优化问题中的应用。通过实例解释了EM算法如何通过E步和M步交替迭代来估计未知参数，展现了其在GMM、聚类和HMM等领域的重要应用。

摘要由CSDN通过智能技术生成

相关文章：

数据挖掘领域十大经典算法之—C4.5算法（超详细附代码）

数据挖掘领域十大经典算法之—K-Means算法（超详细附代码）

数据挖掘领域十大经典算法之—Apriori算法

数据挖掘领域十大经典算法之—EM算法

数据挖掘领域十大经典算法之—PageRank算法

数据挖掘领域十大经典算法之—AdaBoost算法（超详细附代码）

数据挖掘领域十大经典算法之—K-邻近算法/kNN（超详细附代码）

数据挖掘领域十大经典算法之—朴素贝叶斯算法（超详细附代码）

数据挖掘领域十大经典算法之—CART算法（超详细附代码）

首先都有参考两篇文章：

http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

http://blog.csdn.net/zouxy09/article/details/8537620

觉得他们写的非常好，可以参考，下面的内容也是自己看完了之后的一个整理的过程：

1 最大似然概率

例子是说测量校园里面同学的身高分布，分为男生和女生，分别抽取100个人…具体的不细讲了，参考文档中讲得很详细。假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差∂²我们不知道，这两个参数就是我们要估计的。记作θ=[u, ∂]^T。

我们独立地按照概率密度p(x|θ)抽取100了个（身高），组成样本集X，我们想通过样本集X来估计出未知参数θ。这里概率密度p(x|θ)我们假设是是高斯分布N(u,∂)的形式，其中的未知参数是θ=[u, ∂]^T。抽到的样本集是X={x₁,x₂,…,x_N}，其中x_i表示抽到的第i个人的身高，这里N就是100，表示抽到的样本个数。那么

我同时抽到这100个男生的概率就是他们各自概率的乘积了。就是从分布是p(x|θ)的总体样本中抽取到这100个样本的概率，也就是样本集X中各个样本的联合概率，用下式表示：

X就是我们的样本是测量值，所以是已知的，那么这个式子就是表示在θ参数的情况下抽取得到这个样本集的概率，这里L(θ)就是参数θ相对于样本集的似然函数（likehood function）

似然函数这里我觉得可以理解为，X样本集代表一个目标函数或者是一个事实，现在的目标就是通过调整θ参数使这个样本出现的概率最大。这是一个反推的过程就是已经知道一个结果，那么就是找到出现这个结果的最大概率。

θ的最大似然估计量，记为：

有时，可以看到L(θ)是连乘的，所以为了便于分析，还可以定义对数似然函数，将其变成连加的：

下面剩下的问题就是对函数求极值，怎么求一个函数的最值？当然是求导，然后让导数为 0 ，那么解这个方程得到的 θ 就是了（当然，前提是函数 L( θ )连续可微）。那如果 θ 是包含多个参数的向量那怎么处理啊？当然是求 L( θ )对所有参数的偏导数，也就是梯度了，那么 n 个未知的参数，就有 n 个方程，方程组的解就是似然函数的极值点了，当然就得到这 n 个参数了。

求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求；

这里需要注意的是，这里的参数只是对应了一个类别，也就是说男生，女生身高的问题，就是在已知这一群人都是男生的情况下，获得这个类别的参数，或者都是女生的情况下获得。如果两个类别混在一起，那么就是下面的EM估计了。

二 EM算法

EM出现的原因就是抽取的样本不知道是哪个分布抽取的。例如刚开始的最大似然所说的，但现在两种高斯分布的人混在一块了，我们又不知道哪些人属于第一个高斯分布，哪些属于第二个，所以就没法估计这两个分布的参数。反过来，只有当我们对这两个分布的参数作出了准确的估计的时候，才能知道到底哪些人属于第一个分布，那些人属于第二个分布。所以这里就是说EM估计就是因为多了一个隐含变量（抽取得到的每个样本都不知道是从哪个分布抽取的）使得本来简单的可以求解的问题变复杂了。

这里简单的思路就是先初始化隐含变量，然后估计出每个类别对应的分布参数。然后再根据这个分布参数去调整每个样本的隐含参数，依次迭代。。。至于为什么最后能够迭代成功，就是因为在后面的似然函数的证明中可以证明似然函数最后就是一个单调函数

三 EM算法的推导：

给定的训练样本是，样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。p(x,z)的最大似然估计如下：