极大似然估计、EM算法及高斯混合模型

最新推荐文章于 2021-06-26 11:19:36 发布

我要飞升

最新推荐文章于 2021-06-26 11:19:36 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：极大似然估计 EM算法高斯混合模型

本文链接：https://blog.csdn.net/chris_xy/article/details/88970322

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍了极大似然估计的基本概念及其应用，并通过逻辑回归的例子进行了详细的解释。此外，还探讨了EM算法的工作原理，特别是在处理隐变量时的高斯混合模型的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

极大似然估计
极大似然估计是一种模型参数估计的方法，它认为已经发生的事情是可能性最大的事情，因此只需让发生事情的概率取最大值来求解模型参数。假设一共有n个样本用 $x=[x_1, x_2,\cdots,x_n]$ 表示，每个样本中涉及k个参数用 $\theta=[\theta_1,\theta_2,\cdots,\theta_k]$ 表示，经过模型我们可以得到整体这些样本发生的概率：
$L(\theta)= \prod_{i=1}^{n}p(x_i|\theta)$
上式 $L(\theta)$ 表示模型对应的似然函数，等价于在参数为 $\theta$ 时对应样本发生的概率。上式关于 $\theta$ 求导即可。但由于对多项乘积求导往往非常复杂，而对原函数取对数并不会改变原函数的单调性和极值的位置。因此在求解模型参数的时候通常用对数似然函数。 ${\color{red}以逻辑回归为例}$ ，假设样本 $x_i$ 对应的类别为 $y_i$ ,其中 $y_i\in \{0,1\}$ .
$p(y=1|x)=\frac{1}{1+e^{-(wx+b)}}=\pi(x)\\ p(y=0|x)=1-\frac{1}{1+e^{-(wx+b)}}=1-\pi(x)$
因此似然函数可以写成：
$L(w,b)=\prod_{i=1}^{n}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\\ ln(L)=\sum_{i=1}^ny_iln(\pi(x_i ))+(1-y_i)ln(1-\pi(x_i))$
其中 $l n (L)$ 就是逻辑回归的优化函数，对其求极大值就得到w和b的估计值。

EM算法(以高斯混合模型GMM为例)
${\color{red}假设我们现在有一堆身高数据，而且假定身高和人类种族无关，要求估计出一个身高模型?如何估计？}$
首先假设身高服从正态分布，因此得出对于所有样本的最大似然函数：
$L(\mu,\sigma^2)=\prod_{i=1}^np(x_i|\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}\\ln(L)=\sum_{i=1}^nln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}})$
对参数 $\mu$ 和 $\sigma$ 求偏导为：
$\frac{\partial L}{\partial \mu}=\sum_{i=1}^n\frac{(x_i-\mu)}{\sigma^2}\\ \frac{\partial L}{\partial \sigma}=\sum_{i=1}^n(-\frac{1}{\sigma}+\frac{(x_i-\mu)^2}{\sigma^3})=\sum_{i=1}^n\frac{-\sigma^2+(x_i-\mu)^2}{\sigma^3}$
让偏导数等于0，得到参数估计为：
$\mu=\frac{\sum_{i=1}^nx_i}{n} \\ \sigma^2 =\frac{\sum_{i=1}^n(x_i-\mu)^2}{n}$

但是事实是身高和人类种族关系很大，而且人类有很多种族。 ${\color{red}同样给定一堆身高数据，这时我们不知道每个身高属于哪个种族，该如何构建估计身高的模型？}$
首先假定一共有k个种族， $\alpha$ 表示属于某一人种的比例，每个种族的身高服从正态分布，我们先构建似然函数：
$L(\alpha,\mu,\sigma)=\prod_{i=1}^n\sum_{j=1}^k\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)\\ ln(L)=\sum_{i=1}^nln(\sum_{j=1}^k\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)$
由于这个式子没有解析解，只有通过迭代的方法求解。首先假设一个关于 $\alpha$ 的一个分布 $Q$ ，根据Jensen不等式可得：
$\sum_{i=1}^nln(\sum_{j=1}^kQ(\alpha_j)\frac{\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}{Q(\alpha_j)})\ge \sum_{i=1}^n\sum_{j=1}^kQ(\alpha_j)ln(\frac{\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}{Q(\alpha_j)})$
而等号成立的条件是：
$\frac{\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}{Q(\alpha_j)}=c \\ \sum_{j=1}^kQ(a_j)=1$
其中c为常数。因此
$Q(\alpha_j)=\frac{\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}{\sum_{j=1}^k\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}$
计算 $Q(\alpha_j)$ ，这就是EM中的E步。带入到式中：
$l=\sum_{i=1}^n\sum_{j=1}^kQ(\alpha_j)ln(\frac{\alpha_j\cdot p(x_i|\mu_j,\sigma_j^2)}{Q(\alpha_j)})$
分别对 $\alpha,\mu,\sigma$ 求偏导就得到对这些参数的估计，这就是EM中的M步。重复上述E和M步骤直到参数不再更新为止。