EM算法估计beta混合模型参数

HackerTom

已于 2023-11-19 18:31:51 修改

阅读量382

点赞数

分类专栏：机器学习数学文章标签：算法 beta EM 最大似然拉格朗日

于 2023-08-24 09:45:27 首次发布

本文链接：https://blog.csdn.net/HackerTom/article/details/132458842

版权

机器学习同时被 2 个专栏收录

126 篇文章 16 订阅

订阅专栏

数学

38 篇文章 1 订阅

订阅专栏

[1] 用 network memerisation 造成的 clean / noisy 数据 loss 差异来区分 clean / noisy data。当得到一批数据的 normalised loss $\{l_i\in[0,1]\}_{i=1}^n$ 之后，用 beta 混合模型（BMM）拟合两个峰，此前的一篇 [3] 是用高斯混合模型（GMM），两篇都是用 EM 算法求参数。[1] 用 BMM 拟合的来源可能是 [9]。

这里以 [1] 为背景，记 EM 算法的笔记，参考 [4-6]。
normalised loss distribution
[1] 要跟据 loss 值判断一个图文对是 aligned（即 clean）的还是 partial-/mis-aligned（即 noisy）的。具体来说，先求得一批图文对的 normalised loss，分布如上图，有两个峰，各用一个 beta 分布分量拟合，总分布为： $\begin{aligned} p(l) &= \Sigma_{k=1}^{K=2} p(z=k) \cdot p(l|z=k) \\ &= \Sigma_k^K\lambda_k \cdot p(l|k) \\ &= \Sigma_k^K\lambda_k \cdot \Beta(l;\alpha_k,\beta_k) \end{aligned}$ 即 [1] 的 (4) 式。隐变量 $z = 1, 2$ 表示 $l$ 属于哪一个峰，1 clean 2 noisy，beta 分布介绍见 [7]。EM 算法求完参数之后，用 $p(z_i=1|l_i)$ 和一个阈值 $\delta$ 指定第 i 对图文是 clean 还是 noisy。

参考 [4-6]，log likelihood： $\begin{aligned} LL &= \Sigma_{i=1}^n \log p(l_i) \\ &= \Sigma_i \log \Sigma_{k=1}^{K=2} p(l_i, z_i=k) \\ &= \Sigma_i \log \Sigma_k Q_i(k)\cdot \frac{p(l_i,k)}{Q_i(k)} & (1) \\ &\ge \Sigma_i \Sigma_kQ_i(k) \log \frac{p(l_i,k)}{Q_i(k)} & (2) \end{aligned}$

用 Jensen 不等式求下界是因为 sum-log 比 log-sum 好求导；用最大似然求参数时希望下界能取等号，即 (1) = (2)，这样最大化此下界就等同于最大化 log likelihood。

要 (1) = (2)，一种方法是令 $\frac{p(l_i,k)}{Q_i(k)}=c$ ，c 是常数，这样 $(1)=\Sigma_i\log(c的期望)=\Sigma_i\log c$ ，而 $(2)=\Sigma_i [\log(c) 的期望]=\Sigma_i\log c$ ，故 (1) = (2)。此时有： $\begin{aligned} \frac{p(l_i,k)}{Q_i(k)} &= c & (3)\\ p(l_i,k) &= c \cdot Q_i(k) \\ p(l_i) = \Sigma_k p(l_i,k) &= c \cdot \Sigma_k Q_i(k) = c \cdot 1 = c \end{aligned}$ 代回 (3)、移项得 $Q_i(k) = \frac{p(l_i,k)}{c} = \frac{p(l_i,k)}{p(l_i)} = p(k|l_i)$ 。也就是说令 $Q_i(k) = p(k|l_i)$ 时 (1) = (2)，最大化下界等同最大化 log likelihood。

于是 EM 算法开始吟唱：

瞎蒙一组初始参数： $\lambda_k,\alpha_k,\beta_k = \lambda_k^0,\alpha_k^0,\beta_k^0\, \quad (k=1,\dots,K)$ ；
E 步：定住 $\lambda_k,\alpha_k,\beta_k$ ，令 $Q_i(k) := p(k|l_i)=\frac{p(k) \cdot p(l_i|k)}{\Sigma_{k'}p(k') \cdot p(l_i|k')} = \frac{\lambda_k \cdot \Beta(l_i;\alpha_k,\beta_k)}{\Sigma_{k'} \lambda_{k'} \cdot \Beta(l_i;\alpha_{k'},\beta_{k'})}$ ；
M 步：定住 $Q_i(k)$ ， $\lambda_k,\alpha_k,\beta_k = \argmax_{\lambda,\alpha,\beta}LL$ 。

E、M 步重复迭代若干次，其中 M 步 $\lambda_k$ 用拉格朗日乘子（Lagrange multiplier）求，参考 [6]，约束是 $\Sigma_k \lambda_k=1$ ，故拉格朗日函数： $\begin{aligned} L &= LL + \gamma(1 - \Sigma_k \lambda_k) \\ &= \Sigma_i\Sigma_k Q_i(k)\log\frac{p(l_i,k)}{Q_i(k)} + \gamma(1 - \Sigma_k \lambda_k) \\ &= \Sigma_i\Sigma_k Q_i(k)\log p(l_i,k) - \Sigma_i\Sigma_k \underbrace{Q_i(k)\log Q_i(k)}_{\text{常数}} + \gamma(1 - \Sigma_k \lambda_k) \\ &\propto \Sigma_i\Sigma_k Q_i(k)\log p(l_i,k) + \gamma(1 - \Sigma_k \lambda_k) \\ &= \Sigma_i\Sigma_k Q_i(k)\log \lambda_k \cdot \underbrace{\Beta(l_i;\alpha_k,\beta_k)}_{与 \lambda_{k} 无关} + \gamma(1 - \Sigma_k \lambda_k) \end{aligned}$ 分别求导、令等于零： $\left\{\begin{aligned} \frac{\partial L}{\partial \lambda_k} &= \frac{1}{\lambda_k}\Sigma_i Q_i(k) + \gamma &= 0 \\ \frac{\partial L}{\partial \gamma} &= 1 - \Sigma_k \lambda_k &= 0 \end{aligned}\right.$ 解得 $\left\{\begin{aligned} \gamma &= -n \\ \lambda_k &= \frac{1}{n}\Sigma_i Q_i(k) = \frac{1}{n}\Sigma_i \frac{\lambda_k \cdot \Beta(l_i;\alpha_k,\beta_k)}{\Sigma_{k'} \lambda_{k'} \cdot \Beta(l_i;\alpha_{k'},\beta_{k'})} \end{aligned}\right.$ 而 $\alpha_k, \beta_k$ 则用 beta 分布的均值、方差公式反求，参考 [7]，对 $\Beta(x;\alpha,\beta)$ 有： $\left\{\begin{aligned} \mu &= \mathbb{E}X &&= \frac{\alpha}{\alpha + \beta} \\ \sigma^2 &= \mathbb{D}X &&= \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta + 1)} \end{aligned}\right.$ 反求得 $\left\{\begin{aligned} \beta &= (\frac{1}{\mu} - 1)\alpha \\ \alpha &= \mu \left[ \frac{\mu(1 - \mu)}{\sigma^2} - 1 \right] \end{aligned}\right.$

对应 [1] 代码的 BetaMixture1D，其将 $Q_i(\cdot)$ 称为 responsibilities， $p(l_i,z_i=k)=p(k)p(l_i|k)=\lambda_k\Beta(l_i;\alpha_k,\beta_k)$ 称为 weighted_likelihood。