EM算法

最新推荐文章于 2024-01-03 23:22:59 发布

troy2016

最新推荐文章于 2024-01-03 23:22:59 发布

阅读量244

点赞数

分类专栏：第四层级：机器学习和算法+概率论和数理统计文章标签： EM算法似然

本文链接：https://blog.csdn.net/troytom/article/details/83270072

版权

第四层级：机器学习和算法+概率论和数理统计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、EM算法

在统计学中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。

最大期望算法经过两个步骤交替进行计算 [2] ：

1）计算期望（E），利用概率模型参数的现有估计值，计算隐藏变量的期望；

2）最大化（M），利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计。

3）M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。

总体来说，EM的算法流程如下：

1.初始化分布参数

2.重复直到收敛：

E步骤：估计未知参数的期望值，给出当前的参数估计。

M步骤：重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

二、似然度和似然函数

“似然”是对likelihood 的一种较为贴近文言文的翻译，“似然”用现代的中文来说即“可能性”。

设总体X服从分布P(x；θ)（当X是连续型随机变量时为概率密度，当X为离散型随机变量时为概率分布），θ为待估参数，X1,X2,…Xn是来自于总体X的样本，x1,x2…xn为样本X1,X2,…Xn的一个观察值，则样本的联合分布（当X是连续型随机变量时为概率密度，当X为离散型随机变量时为概率分布）　L（θ）=L（x1,x2,…,xn；θ）=ΠP（xi；θ）称为似然函数。

对于每个x值，选取，使得

其中p(x)是不同于是不同于的任一统计量。这就是按极大似然法原理估计参数的基本思想。

似然函数在推断统计学（Statistical inference）中扮演重要角色，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

关于利用似然函数进行统计推断的应用，可以参考最大似然估计（Maximum likelihood estimation）方法和似然比检验（Likelihood-ratio testing）方法

三、似然比

似然比(likelihood ratio, LR) 是反映真实性的一种指标，属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。

该指标全面反映筛检试验的诊断价值，且非常稳定。似然比的计算只涉及到灵敏度与特异度，不受患病率的影响。

因检验结果有阳性与阴性之分，似然比可相应地区分为阳性似然比(positive likelihood ratio, +LR)和阴性似然比(negative likelihood ratio, －LR)。

阳性似然比是筛检结果的真阳性率与假阳性率之比。说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数。比值越大，试验结果阳性时为真阳性的概率越大。

阴性似然比是筛检结果的假阴性率与真阴性率之比。表示错误判断阴性的可能性是正确判断阴性可能性的倍数。其比值越小，试验结果阴性时为真阴性的可能性越大。

Notice:

作者：Yeung Evan
链接：https://www.zhihu.com/question/54082000/answer/145495695
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1、似然与概率的区别

在英语语境里，likelihood 和 probability 的日常使用是可以互换的，都表示对机会 (chance) 的同义替代。但在数学中，probability 这一指代是有严格的定义的，即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象（换句话说，不是所有的可以用0到1之间的数所表示的对象都能称为概率），而 likelihood (function) 这一概念是由Fisher提出，他采用这个词，也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系，但又不完全一样的这一感觉。中文把它们一个翻译为概率一个翻译为似然也是独具匠心。

除此之外，统计学中的另一常见概念"置信（区间）"(confidence interval)中的置信度(confidence level)也不是概率。换句话说，"构建关于总体均值的95%的置信区间"里的"95%"不是概率意义下的0.95（即使它也是0到1之间的代表机会chance的一个度量）；更常见的p-值(p-value)严格来说其本身是一个(恰好位于0到1之间的)统计量(即样本随机变量的函数)，所以p-值也不是概率。

一种方便区别是概率还是似然的方法是，根据定义，"谁谁谁的概率"中谁谁谁只能是概率空间中的事件，换句话说，我们只能说，事件(发生)的概率是多少多少(因为事件具有概率结构从而刻画随机性，所以才能谈概率)；而"谁谁谁的似然"中的谁谁谁只能是参数，比如说，参数等于 $\theta$ 时的似然是多少。

2、似然与概率的联系

先看似然函数的定义，它是给定联合样本值 $\textbf{x}$ 下关于(未知)参数 $\theta$ 的函数： $L(\theta | \textbf{x}) = f(\textbf{x} | \theta)$

这里的小 $\textbf{x}$ 是指联合样本随机变量 $\textbf{X}$ 取到的值，即 $\textbf{X} = \textbf{x}$ ；

这里的 $\theta$ 是指未知参数，它属于参数空间；

这里的 $f(\textbf{x}|\theta)$ 是一个密度函数，特别地，它表示(给定) $\theta$ 下关于联合样本值 $\textbf{x}$ 的联合密度函数。

所以从定义上，似然函数和密度函数是完全不同的两个数学对象：前者是关于 $\theta$ 的函数，后者是关于 $\textbf{x}$ 的函数。所以这里的等号 $=$ 理解为函数值形式的相等，而不是两个函数本身是同一函数(根据函数相等的定义，函数相等当且仅当定义域相等并且对应关系相等)。

说完两者的区别，再说两者的联系。

（1）如果 $\textbf{X}$ 是离散的随机向量，那么其概率密度函数 $f(\textbf{x} | \theta)$ 可改写为 $f(\textbf{x} | \theta) = \mathbb{P}_\theta(\textbf{X} = \textbf{x})$ ，即代表了在参数 $\theta$ 下随机向量 $\textbf{X}$ 取到值 $\textbf{x}$ 的可能性；并且，如果我们发现

$L(\theta_1 | \textbf{x} ) = \mathbb{P}_{\theta_1}(\textbf{X} = \textbf{x}) > \mathbb{P}_{\theta_2}(\textbf{X} = \textbf{x}) = L(\theta_2 | \textbf{x})$

那么似然函数就反应出这样一个朴素推测：在参数 $\theta_1$ 下随机向量 $\textbf{X}$ 取到值 $\textbf{x}$ 的可能性大于 在参数 $\theta_2$ 下随机向量 $\textbf{X}$ 取到值 $\textbf{x}$ 的可能性。换句话说，我们更有理由相信(相对于 $\theta_2$ 来说) $\theta_1$

更有可能是真实值。这里的可能性由概率来刻画。

（2）如果 $\textbf{X}$ 是连续的随机向量，那么其密度函数 $f(\textbf{x} | \theta)$ 本身（如果在 $\textbf{x}$ 连续的话）在 $\textbf{x}$ 处的概率为0，为了方便考虑一维情况：给定一个充分小 $\epsilon > 0$ ，那么随机变量 $X$ 取值在 $(x - \epsilon, x + \epsilon)$ 区间内的概率即为

$\mathbb{P}_\theta(x - \epsilon < X < x + \epsilon) = \int_{x - \epsilon}^{x + \epsilon} f(x | \theta) dx \approx 2 \epsilon f(x | \theta) = 2 \epsilon L(\theta | x)$

并且两个未知参数的情况下做比就能约掉 $2\epsilon$ ，所以和离散情况下的理解一致，只是此时似然所表达的那种可能性和概率 $f(x|\theta) = 0$ 无关。

综上，概率(密度)表达给定 $\theta$ 下样本随机向量 $\textbf{X} = \textbf{x}$ 的可能性，而似然表达了给定样本 $\textbf{X} = \textbf{x}$ 下参数 $\theta_1$ (相对于另外的参数 $\theta_2$ )为真实值的可能性。我们总是对随机变量的取值谈概率，而在非贝叶斯统计的角度下，参数是一个实数而非随机变量，所以我们一般不谈一个参数的概率。

最后我们再回到 $L(\theta | \textbf{x}) = f(\textbf{x} | \theta)$ 这个表达。首先我们严格记号，竖线 $|$ 表示条件概率或者条件分布，分号 $;$ 表示把参数隔开。所以这个式子的严格书写方式是 $L(\theta | \textbf{x}) = f(\textbf{x} ; \theta)$ 因为 $\theta$ 在右端只当作参数理解。

troy2016

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法

一、EM算法在统计学中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算 [2] ：1）计算期望（E），利用概率模型参数的现有估计值...
复制链接

扫一扫