极大似然估计和EM算法学习笔记

最新推荐文章于 2023-12-01 22:56:31 发布

O大叔Tz

最新推荐文章于 2023-12-01 22:56:31 发布

阅读量653

点赞数 2

本文链接：https://blog.csdn.net/qq_28032693/article/details/103614071

版权

极大似然估计和EM算法

极大似然估计
- 例子
EM算法
- 例子

极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。具体地，记关于类别 $c$ 的类条件概率为 $P (x ∣ c)$ ，假设 $P (x ∣ c)$ 具有确定的形式并且被参数向量 $\theta_c$ 唯一确定，则我们的任务就是利用训练集 $D$ 估计参数 $\theta_c$ 。为明确起见，我们将 $P (x ∣ c)$ 记为 $P(x|\theta_c)$ 。

令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta_c$ 对于数据集 $D_c$ 的似然是

$P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c).\tag{1}$

对 $\theta_c$ 进行极大似然估计，就是去寻找能最大化似然 $P(D_c|\theta_c)$ 的参数值 $\hat{\theta}_c$ 。直观上看，极大似然估计是试图在 $\theta_c$ 所有可能的取值中，找到一个能使数据出现的“可能性”最大的值。

式(1)中的连乘操作易造成下溢，通常使用对数似然(log-likelihood)

$\begin{aligned} LL(\theta_c)&=\log P(D_c|\theta_c)\\ &=\log \prod_{x\in D_c}P(x|\theta_c)\\ &=\sum_{x\in D_c}\log P(x|\theta_c),\tag{2} \end{aligned}$

式子(2)中取对数的时候直接写的是 $\log$ ，并没有明确地指明这个对数的底数是多少；实际上，只要保证对数是单调递增的就可以了。所以 $\log$ 的底数取 $2$ 或者 $10$ 或者 $e$ 都是可以的，通常是取自然常数 $e$ 为底数。则对数似然可化为：

$LL(\theta_c)=\sum_{x\in D_c}\ln P(x|\theta_c),\tag{3}$

此时参数 $\theta_c$ 的极大似然估计 $\hat{\theta}_c$ 为

$\hat{\theta}_c=\mathop{\arg\max}\limits_{\theta_c} LL(\theta_c).\tag{4}$

例如，在连续属性情形下，假设概率密度函数 $p(x|c)\sim\mathcal{N}(\mu_c,\sigma_c^2)$ ，则参数 $\mu_c$ 和 $\sigma_c^2$ 的极大似然估计为

$\hat{\mu}_c=\frac{1}{|D_c|}\sum_{x\in D_c}x,$

$\hat{\sigma}_c^2=\frac{1}{|D_c|}\sum_{x\in D_c}(x-\hat{\mu}_c)(x-\hat{\mu}_c)^\mathrm{T}.$

也就是说，通过极大似然法得到的正态分布均值就是样本均值，方差就是 $(x-\hat{\mu}_c)(x-\hat{\mu}_c)^\mathbf{T}$ 的均值，这显然是一个符合直觉的结果。在离散属性情形下，也可通过类似的方式估计类条件概率。

例子

以掷硬币游戏为例，在已知掷出硬币是A还是B的情况下，掷出的结果如图1所示。

图1. 已知情况下掷硬币

如图所示，投掷五次硬币的结果即训练集 $D$ ，则两次投掷硬币 $B$ 的结果即是训练集 $D$ 中第 $B$ 类样本组成的集合 $D_B$ ，假设硬币 $B$ 掷出正面的概率为 $\theta_B$ ，前后一共掷出20次，则 $D_B$ 是独立同分布的20重伯努利试验结果，设样本 $D_B=\{x_1,x_2,...,x_{20}\}$ ，则 $x_i$ 的条件概率为

$P(x_i=正|\theta_B)=\theta_B,$

$P(x_i=负|\theta_B)=1-\theta_B.$

投掷结果为：

正>负>负>负>正>正>负>正>负>正
正>负>正>负>负>负>正>正>负>负，

则参数 $\theta_B$ 对于样本 $X$ 的对数似然为

$\begin{aligned} LL(\theta_B)&=\ln P(D_B|\theta_B)\\ &=\sum_{i=1}^{20}\ln P(x_i|\theta_B)\\ &=9\ln{\theta_B}+11\ln(1-\theta_B). \end{aligned}$

为了求对数似然的极大值，所以对 $LL(\theta_B)$ 求导，得

$\frac{dLL(\theta_B)}{d\theta_B}=\frac{9}{\theta_B}+\frac{11}{\theta_B-1}.$

令导数为 $0$ 得 $\hat{\theta}_B=0.45$ ，同理得 $\hat{\theta}_A=0.80$ 。

EM算法

在前面的讨论中，我们一直假设训练样本所有属性变量的值都已被观测到，即训练样本是"完整"的。但在现实应用中往往会遇到"不完整"的训练样本，例如由于西瓜的根蒂己脱落，无法看出是"蜷缩"还是"硬挺"，则训练样本的"根蒂"属性变量值未知。在这种存在"未观测"变量的情形下，是否仍能对模型参数进行估计呢?

未观测变量的学名是"隐变量"（latent variable）。令 $\mathbf{X}$ 表示己观测变集， $\mathbf{Z}$ 表示隐变量集， $\Theta$ 表示模型参数。若欲对 $\Theta$ 做极大似然估计，则应最大化对数似然

$LL(\Theta|\mathbf{X},\mathbf{Z})=\ln P(\mathbf{X},\mathbf{Z}|\Theta).\tag{5}$

然而由于 $\mathbf{Z}$ 是隐变量，上式无法直接求解。此时我们可通过对 $\mathbf{Z}$ 计算期望，来最大化己观测数据的对数“边际似然”（marginal likelihood）

$LL(\Theta|\mathbf{X},\mathbf{Z})=\ln P(\mathbf{X}|\Theta)=\ln{\sum}_{\mathbf{Z}}P(\mathbf{X},\mathbf{Z}|\Theta).\tag{6}$

EM（Expectation-Maximization）算法是常用的估计参数隐变量的利器，它是一种迭代式的方法，其基本想法是：若参数 $\Theta$ 己知，则可根据训练数据推断出最优隐变量 $\mathbf{Z}$ 的值（E步）；反之，若 $\mathbf{Z}$ 的值已知，则可方便地对参数 $\Theta$ 做极大似然估计（M步）。

于是，以初始值 $\Theta^0$ 为起点，对式(5)，可迭代执行以下步骤直至收敛：

基于 $\Theta^t$ 推断隐变量 $\mathbf{Z}$ 的期望，记为 $\mathbf{Z}^t$ ；
基于已观测变量 $\mathbf{X}$ 和 $\mathbf{Z}^t$ 对参数 $\Theta$ 做极大似然估计，记为 $\Theta^{t+1}$ ；

这就是EM算法的原型。

进一步，若我们不是取 $\mathbf{Z}$ 的期望，而是基于 $\Theta^t$ 计算隐变量 $\mathbf{Z}$ 的概率分布 $P(\mathbf{Z}|\mathbf{X},\Theta)$ ，则EM算法的两个步骤是：

$\mathbf{E}$ 步(Expectation)：以当前参数 $\Theta^t$ 推断隐变量分布 $P(\mathbf{Z}|\mathbf{X},\Theta^t)$ ，并计算对数似然 $LL(\Theta|\mathbf{X},\mathbf{Z})$ 关于 $\mathbf{Z}$ 的期望
$Q(\Theta|\Theta^t)=\mathbb{E}_{\mathbf{Z}|\mathbf{X},\Theta^t}LL(\Theta|\mathbf{X},\mathbf{Z}).\tag{7}$
$\mathbf{M}$ 步（Maximization）：寻找参数最大化期望似然，即
$\Theta^{t+1}=\mathop{\arg\max}\limits_\Theta Q(\Theta|\Theta^t).\tag{8}$

简要来说，EM算法使用两个步骤变替计算：第一步是期望(E)步，利用当前估计的参数值来计算对数似然的期望值；第二步是最大化(M)步，寻找能使E步产生的似然期望最大化的参数值。然后，新得到的参数值重新被用于E步，······直至收敛到局部最优解。

例子

以掷硬币游戏为例，在未知掷出硬币是A还是B的情况下，掷出的结果如图2所示。

图2. 未知情况下掷硬币

如图所示，投掷五次硬币的结果即己观测变集 $\mathbf{X}=\{x_1,x_2,x_3,x_4,x_5\}$ ，五枚硬币分别是 $A$ 还是 $B$ 的分布即隐变量集 $\mathbf{Z}=\{z_1,z_2,z_3,z_4,z_5\}$ ，其中 $z_i\in\{A,B\}$ ，硬币 $A$ 或 $B$ 掷出正面的概率为模型参数 $\Theta=\{\theta_A,\theta_B\}$ 表示模型参数， $\Theta^0=\{\hat{\theta}^{(0)}_A,\hat{\theta}^{(0)}_B\}$ ，其中 $\theta^{(0)}_A=0.60,\theta^{(0)}_B=0.50$ 。

基于 $\Theta^t$ 计算隐变量 $\mathbf{Z}$ 的概率分布 $P(\mathbf{Z}|\mathbf{X},\Theta)$ ，则EM算法的两个步骤是：

$\mathbf{E}$ 步(Expectation)：以当前参数 $\Theta^t$ 推断隐变量分布 $P(\mathbf{Z}|\mathbf{X},\Theta^t)$ ，并计算对数似然 $LL(\Theta|\mathbf{X},\mathbf{Z})$ 关于 $\mathbf{Z}$ 的期望。

例如第一枚硬币的投掷结果为：正>负>负>负>正>正>负>正>负>正，则：

$\begin{aligned} P(z_1=A|x_1,\Theta^0)&=\frac{P(z_1=A,x_1|\Theta^0)}{P(x_1|\Theta^0)}\\ &=\frac{P(z_1=A,x_1|\Theta^0)}{P(z_1=A,x_1|\Theta^0))+P(z_1=B,x_1|\Theta^0))}\\ &=\frac{P(z_1=A|\Theta^0)P(x_1|z_1=A,\Theta^0)}{P(z_1=A|\Theta^0)P(x_1|z_1=A,\Theta^0)+P(z_1=B|\Theta^0)P(x_1|z_1=B,\Theta^0)}, \end{aligned}$

根据模型中条件独立性假设可得 $P(z_1=A|\Theta^0)=P(z_1=B|\Theta^0)=\frac{1}{2}$ ，所以上式可化简为

$\begin{aligned} P(z_1=A|x_1,\Theta^0)&=\frac{P(x_1|z_1=A,\Theta^0)}{P(x_1|z_1=A,\Theta^0)+P(x_1|z_1=B,\Theta^0)}\\ &=\frac{0.60^50.50^5}{0.60^50.50^5+0.50^50.50^5}\approx 0.45. \end{aligned}$

同理 $P(z_1=B|x_1,\Theta^0)=0.55$ ，所以对数似然 $LL(\Theta|\mathbf{X},\mathbf{Z})$ 关于 $\mathbf{Z}$ 的期望为

$\begin{aligned} Q(\Theta|\Theta^0)&=\mathbb{E}_{\mathbf{Z}|\mathbf{X},\Theta^0}LL(\Theta|\mathbf{X},\mathbf{Z})\\ &=\sum_i\sum_{z_i}P(z_i|x_i,\Theta^0)\ln P(x_i,z_i|\Theta)\\ &=0.45*\ln[\theta_A^5(1-\theta_A)^5]+0.55*\ln\theta_B^5(1-\theta_B)^5]\\ &+0.80*\ln[\theta_A^9(1-\theta_A)^1]+0.20*\ln\theta_B^9(1-\theta_B)^1]\\ &+0.73*\ln[\theta_A^8(1-\theta_A)^2]+0.27*\ln\theta_B^8(1-\theta_B)^2]\\ &+0.35*\ln[\theta_A^4(1-\theta_A)^6]+0.65*\ln\theta_B^4(1-\theta_B)^6]\\ &+0.65*\ln[\theta_A^7(1-\theta_A)^3]+0.35*\ln\theta_B^7(1-\theta_B)^3]\\ &=21.24\ln\theta_A+8.56\ln(1-\theta_A)+11.76\ln\theta_B+8.44\ln(1-\theta_B). \end{aligned}$