小象学院机器学习第十七章 EM算法

最新推荐文章于 2022-11-15 11:41:21 发布

u010863933

最新推荐文章于 2022-11-15 11:41:21 发布

阅读量794

点赞数

分类专栏：技术总结文章标签：机器学习 EM算法混合高斯分布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010863933/article/details/82623862

版权

这一段来源于WIKI百科：

In statistics, an expectation–maximization (EM) algorithm is an iterative method to find maximum likelihood or maximum a posteriori (MAP) estimates of parametersin statistical models, where the model depends on unobserved latent variables.

NOTE:(chen)

model depends on, 是不是可以认为是model的参数depends on?

在统计学中，EM算法是一种迭代算法，它可以找到统计学模型中的《参数》的最大似然概率（最大似然概率实际上是最大的后验概率）。而这种统计学模型依赖于未观测到的隐变量。

注：也就是说，我们的数据观测的是不充分的。

我们要求在观测数据不充分的情况下，统计模型的参数。

并且，我们只是用高斯混合来解释EM算法，但是这并不意味着EM算法只能应用在高斯混合分布上。

实际上，对于求解包含有隐变量的统计模型的参数估计的问题时，就可以考虑使用EM算法。

再好好理解一下什么是隐变量：

比如高斯混合模型里面的，每一个样本是来源于哪一个高斯分布;

或者是ibm model里面的， alignment。

该组数据，x是实际观测到的数据，z是未观测到的数据。

那么在使用模型p对这些数据进行建模时，

目的是要求得这些模型的参数。

而问题是，由于隐变量Z的存在，不方便对模型的参数 $\theta$ 进行评估啊

那怎么办？这是EM算法想要解决的问题。

Intuiation:

首先说说，如何求不带隐变量的模型的参数。怎么求统计模型的参数呢？

最大似然估计啊！

比如使用Logistic 回归模型来分类垃圾短信，如果认为 Logistic回归模型是一个系统的话，那么这个系统的参数怎么估计呢？

可以通过样本 $\{x^{(1)}, x^{(2)},...,x^{(m)}\}$ ，应用梯度下降算法来估计系统（Logistic 模型）的参数

估计好了系统的参数之后，如果来了未知样本，那么把未知样本送到系统中去，那就可以得到新的系统的预测值。这就是一个模型啊～

或者，

例如给定某个系统的若干样本x，计算该系统的参数。

比如某2个系统是，从男生和女生随机抽取一些人出来，记录每一个学生的身高，

假设男生身高和女生身高分别服从两个高斯分布；那么已经知道所有男生的身高、所有女生的身高的情况之下，

就可以分别计算出男生总体的身高均值、方差，女生总体的均值、方差 $u_1,\sigma1_,u_2,\sigma2_$

为什么叫"求带隐变量的分布"？

但问题是，男生和女生的身高数据已经混合在一起了，并不知道哪一条身高数据，来源于男生，还是女生。

此时怎么办？

在继续之前，我们还要明确一下，此时这个“系统”的参数是哪些。

下面的启示来源于wiki百科：

Examples

Gaussian mixture

Comparison of k-means and EM on artificial data visualized with ELKI. Using the variances, the EM algorithm can describe the normal distributions exactly, while k-means splits the data in Voronoi-cells. The cluster center is indicated by the lighter, bigger symbol.

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
小象学院机器学习第十七章 EM算法

这一段来源于WIKI百科：Instatistics, anexpectation–maximization(EM)algorithmis aniterative methodto findmaximum likelihoodormaximum a posteriori(MAP) estimates ofparametersinstatistical models, w...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。