【机器学习算法】期望最大算法(EM)（一）

最新推荐文章于 2022-09-18 10:37:13 发布

猎猎长风

最新推荐文章于 2022-09-18 10:37:13 发布

阅读量315

点赞数

分类专栏：机器学习文章标签：机器学习算法概率论

本文链接：https://blog.csdn.net/weixin_40633696/article/details/116062005

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

一、极大似然估计

1. 举例

举个栗子：假如你去赌场，但是不知道能不能赚钱，你就在门口堵着出来一个人就问一个赚了还是赔了，如果问了5个人都说赚了，那么你就会认为，赚钱的概率肯定是非常大的。

已知：（1）样本服从分布的模型（2）观测到的样本

求解：模型的参数

总的来说：极大似然估计就是用样本来估计模型参数的统计学方法

2. 极大似然数学问题

100名学生的身高问题

样本集 $X=\{x_{1},x_{2},...,x_{n}\},n=100$

概率密度： $p(x_{i}|\theta)$ 抽到男生 $i$ （的身高）的概率， $\theta$ 是服从分布的参数

独立同分布：同时抽到这100个男生的概率就是他们各自概率的乘积

极大似然函数

公式： $l(\theta)=\sum_{i=1}^mlogp(x_{i};\theta)$ （对数是为了乘法转加法）

什么样的参数 $\theta$ 能够使得出现当前这批样本的概率最大

已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。

加大问题的难度

现在这100个人中，不光有男生，还有女生（2个类别，2种参数）

男生和女生的身高都服从高斯分布，但是参数不同（均值，方差）

求解目标：男生和女生对应的身高的高斯分布的参数是多少

用数学的语言描述：抽取得到的每个样本都不知道是从哪个分布抽取的

加入隐变量

用Z=0或Z=1标记样本来自哪个分布，则Z就是隐变量。

极大似然函数： $l(\theta)=\sum_{i=1}^mlogp(x_{i};\theta)=\sum_{i=1}^mlog\sum_{Z}p(x_{i},Z;\theta)$

求解：在给定初始值情况下进行迭代求解

二、EM算法

1. 经典案例

从A和B两枚硬币中每次选择1枚抛10次，分别进行5轮，得出下图中左边的正反面样本数据。A和B正面朝上的概率未知，请根据样本数据求解A和B正面朝上的概率。
在这里插入图片描述

假设两枚硬币的初始假设的分布

A硬币：60%概率正面朝上

B硬币：50%概率正面朝上

E步骤：

（1）由第1条数据，根据初始硬币的概率分布，投掷出5正5反的概率：

$p(A)=C_{10}^5\times0.6^5\times0.4^5$

$p(B)=C_{10}^5\times0.5^5\times0.5^5$

（2）则观测结果来自硬币A的概率： $\frac{p(A)}{p(A)+p(B)}=0.45$ ，观测结果来自硬币B的概率： $1 - p (A) = 0.55$

为什么通过 $p (A)$ 和 $p (B)$ 能算出来自A和B的概率？
答：在这里插入图片描述

同理，由第2-5条数据也可以计算出选择硬币A和B的概率。

M步骤：

（1）对每一条数据，根据E步骤求得的选择A和B的概率分别计算A和B抛出正反面的期望。

（2）将根据五条数据求得的A正反面的期望相加，则A正面朝上的概率： $\theta_{A}\approx\frac{21.3}{21.3+8.6}\approx0.71$ ；同理，B正面朝上的概率： $\theta_{B}\approx\frac{11.7}{11.7+8.4}\approx0.58$

迭代

重复E步骤和M步骤，直到 $\theta_{A}$ 和 $\theta_{B}$ 收敛，得到 $\theta_{A}\approx0.80$ ， $\theta_{B}\approx0.52$

2. EM算法推导

问题：样本集 ${x_1,…,x_m\}$ ，包含m个独立的样本。

其中每个样本 $i$ 对应的类别 $z_i$ 是未知的，所以很难用最大似然求解。

$l(\theta)=\sum_{i=1}^mlogp(x_{i};\theta)=\sum_{i=1}^mlog\sum_{Z}p(x_{i},Z;\theta)$

上式中，要考虑每个样本在各个分布中的情况。本来正常求偏导就可以了，但是现在log后面还有求和，这就难解了！

右式分子分母同时乘 $Q (z) :$ $log\sum_Z p(x_i,Z;\theta)=log\sum_Z Q(Z)\frac{p(x_i,Z;\theta)}{Q(Z)}$

为何这么做？答：为了凑Jensen不等式（ $Q (Z)$ 是Z的分布函数）

2.1 Jensen不等式

设 $f$ 是定义域为实数的函数，如果对于所有的实数 $x$ ， $f (x)$ 的二次导数大于等于0，那么 $f$ 是凸函数。

如果 $f$ 是凸函数， $X$ 是随机变量，那么： $E[f(X)]\ge f(E[X])$

在这里插入图片描述

实线 $f$ 是凸函数， $X$ 有0.5的概率是a，有0.5的概率是b，那么 $X$ 的期望值就是a和b的中值了，则： $\frac{f(a)+f(b)}{2} \ge f (\frac{a+b}{2})$

Jensen不等式应用于凹函数时，不等号取反向。

2.2 推导过程

由于 $Q(Z)\frac{p(x_i,Z;\theta)}{Q(Z)}$ 是 $\frac{p(x_i,Z;\theta)}{Q(Z)}$ 的期望，假设 $Y=\frac{p(x_i,Z;\theta)}{Q(Z)}$ ，有 $Q (Z) = P (Y)$ ，则：

$log\sum_Z Q(Z)\frac{p(x_i,Z;\theta)}{Q(Z)}=log\sum_YP(Y)Y=logE(Y)$

由于Jensen不等式应用于凹函数时（ $l o g$ 函数为凹函数），不等号取反向，可得：

$logE(Y)\ge E(logY)=\sum_Y P(logY)logY=\sum_Y P(Y)logY=\sum_Z Q(Z)log \frac{p(x_i,Z;\theta)}{Q(Z)}$

（ P(Y)和P(logY)是否相等？）答：相等

即： $log\sum_Z Q(Z)\frac{p(x_i,Z;\theta)}{Q(Z)}\ge\sum_Z Q(Z)log \frac{p(x_i,Z;\theta)}{Q(Z)}$

由于 $log\sum_Z Q(Z)\frac{p(x_i,Z;\theta)}{Q(Z)}=log\sum_{Z}p(x_{i},Z;\theta)=logp(x_{i};\theta)$ ,可得：

$l(\theta)=\sum_{i=1}^mlogp(x_{i};\theta)\ge \sum_{i=1}^m \sum_Z Q(Z)log \frac{p(x_i,Z;\theta)}{Q(Z)}$

下界比较好求，所以我们要优化这个下界来使得似然函数最大。

优化下界

迭代到收敛
在这里插入图片描述
如何能使得等式成立呢？（取等号）

Jensen中等式成立的条件是随机变量是常数： $Y=\frac{p(x_i,Z;\theta)}{Q(Z)}=C$

$Q (Z)$ 是 $Z$ 的分布函数： $\sum_ZQ(Z)=\sum_Z \frac{p(x_i,Z;\theta)}{C}=1$

所有的分子之和等于常数C（分母相同）

$Q (Z)$ 求解

由 $\sum_ZQ(Z)=\sum_Z \frac{p(x_i,Z;\theta)}{C}=1$ 得： $C=\sum_Z p(x_i,Z;\theta)$ ,则：

$Q(Z)=\frac{p(x_i,Z;\theta)}{C}=\frac{p(x_i,Z;\theta)}{\sum_Z p(x_i,Z;\theta)}=\frac{p(x_i,Z;\theta)}{p(x_i)}=p(Z|x_i;\theta)$

其中， $p(x_i,Z;\theta)$ 为取某一个Z值时的概率， $\sum_Z p(x_i,Z;\theta)$ 为所有的可能性。

$Q (Z)$ 代表第 $i$ 个数据来自某个 $Z$ 的概率。

2.3 EM算法流程

（1）初始化分布参数 $\theta$

（2）E-step：根据参数 $θ$ 计算每个样本属于 $Z_i$ 的概率(也就是 $Q$ )

（3）M-Step：根据 $Q$ ，求出含有 $\theta$ 的似然函数的下界并最大化它，得到新的参数 $\theta$

（4）不断的迭代更新，直至收敛。

三、高斯混合模型（GMM）

数据可以看作是从数个Gaussian Distribution 中生成出来的
GMM 由K 个Gaussian 分布组成，每个Gaussian 称为一个“Component”
类似k-means方法，求解方式跟EM一样
不断的迭代更新，直至收敛。

猎猎长风

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习算法】期望最大算法(EM)（一）

EM：Expectation-Maximization一、极大似然估计1. 举例举个栗子：假如你去赌场，但是不知道能不能赚钱，你就在门口堵着出来一个人就问一个赚了还是赔了，如果问了5个人都说赚了，那么你就会认为，赚钱的概率肯定是非常大的。已知：（1）样本服从分布的模型（2）观测到的样本求解：模型的参数总的来说：极大似然估计就是用样本来估计模型参数的统计学方法2. 极大似然数学问题100名学生的身高问题样本集X={x1,x2,…,xn} ,n=100概率密度：p(xi|θ)抽到男生i（的
复制链接

扫一扫