GMM高斯混合模型原理推导(二)

篝火者2312

已于 2024-04-29 19:02:59 修改

阅读量235

点赞数

分类专栏：机器学习、人工智能笔记文章标签：概率论线性代数机器学习

于 2023-10-04 11:06:44 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/133546686

版权

机器学习、人工智能同时被 2 个专栏收录

49 篇文章 5 订阅

订阅专栏

笔记

48 篇文章 3 订阅

订阅专栏

前言

上一篇GMM高斯混合模型原理推导(一)，我们的连乘已经变成了连加号，只需要求出 $P (z, x)$ 相关的概率即可
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

原理推导

对于 $P (z, x)$ ，为什么不是 $P(z,x|\theta)$ ？因为 $\theta$ 是参数，不是随机变量
$P(z_i=Ck,x_i)=P(x_i|z_i=Ck)P(z_i=Ck)=p_k*N(x_i|\mu_k,Σ_k)$
而 $P (z ∣ x)$ 我们目前没有必要求出来，因为他的参数是给定 $\theta^t$ ，我们所需要的是变量，因为后续要求导求极值。而 $P(z|x,\theta^t)$ 已经相当于一个常数

因此
$\begin{equation} \begin{aligned} {E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]}=&\sum_{k=1}^K\sum_{i=1}^{n}log[p_k*N(\mu_k,Σ_k)]P(z_i=Ck|x_i,\theta^t) \\=&\sum_{k=1}^K\sum_{i=1}^{n}[logp_k+logN(\mu_k,Σ_k)]P(z_i=Ck|x_i,\theta^t) \end{aligned} \end{equation}$
先求出 $p_k$ ，对于 $p_k$ ，我们知道有约束条件 $\sum\limits_{k=1}^Kp_k=1$ ，所以构造拉格朗日函数
$L(\theta,\lambda)=\sum_{k=1}^K\sum_{i=1}^{n}[logp_k+logN(x_i|\mu_k,Σ_k)]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right]$
让其对关于 $p_k$ 求导
$\begin{equation} \begin{aligned} &\frac{\partial{L(\theta,\lambda)}}{\partial{p_k}}=\sum_{i=1}^n\frac{1}{p_k}P(z_i=Ck|x_i,\theta^t)+\lambda=0 \\&等式左右乘以p_k \\&\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t)+\lambda{p_k}=0 \end{aligned} \end{equation}$
因此，当 $k=1,2,\cdots,K$ 时
$\sum_{i=1}^nP(z_i=C1)+\lambda{p_1}=0 \\\sum_{i=1}^nP(z_i=C2)+\lambda{p_2}=0 \\\vdots$
所以
$\sum_{i=1}^nP(z_i=C1)+\lambda{p_1}+\sum_{i=1}^nP(z_i=C2)+\lambda{p_2}+\cdots+\sum_{i=1}^nP(z_i=Ck)+\lambda{p_k}=0$
即
$\begin{equation} \begin{aligned} &\sum_{k=1}^K\sum_{i=1}^n[P(z_i=Ck)+\sum_{k=1}^K\lambda{p_k} \\=&\sum_{i=1}^n\sum_{k=1}^KP(z_i=Ck)+\lambda\sum_{k=1}^K{p_k} \\=&0 \end{aligned} \end{equation}$
因为 $\sum_{k=1}^K{p_k}=1$ ， $\sum\limits_{k=1}^KP(z_i=Ck)=1$

所以最终变成
$\sum_{i=1}^n1+\lambda=0 \rightarrow n+\lambda=0 \rightarrow \lambda=-n$
将 $\lambda=-n$ 代入之前的 $\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)+\lambda{p_k}=0$ 得
$p_k=\frac{1}{n}\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t)$
$p$ 有了，接下来就是求解 $\mu,Σ$ 。

正态分布的概率密度函数
$f(x)=\frac{1}{(2\pi)^{\frac{d}{2}}|Σ|^{\frac{1}{2}}}exp\left\{ -\frac{1}{2}(x-\mu)^TΣ^{-1}(x-\mu) \right\}$
其中 $d$ 代表x的维度。

要求均值和协方差，先把拉格朗日函数里面的正态分布写成概率密度函数的形式
$\begin{equation} \begin{aligned} L(\theta,\lambda)=&\sum_{k=1}^K\sum_{i=1}^{n}[logp_k+logN(x_i|\mu_k,Σ_k)]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right] \\=&\sum_{k=1}^K\sum_{i=1}^{n}\left[logp_k+log\left[\frac{1}{(2\pi)^{\frac{d}{2}}|Σ_k|^{\frac{1}{2}}}exp\left\{ -\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k) \right\}\right]\right]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right] \\=&\sum_{k=1}^K\sum_{i=1}^n \left[ logp_k+log\frac{1}{(2\pi)^\frac{d}{2}|Σ_k|^\frac{1}{2}}+log\left[exp\left\{-\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k)\right\}\right] \right]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right] \\=&\sum_{k=1}^K\sum_{i=1}^n \left[ logp_k+log\frac{1}{(2\pi)^\frac{d}{2}|Σ_k|^\frac{1}{2}}-\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right] \\=&\sum_{k=1}^K\sum_{i=1}^n \left[ logp_k-\frac{d}{2}2\pi-\frac{1}{2}log|Σ_k|-\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t)+\lambda\left[\sum_{k=1}^Kp_k-1\right] \end{aligned} \end{equation}$
对拉格朗日函数关于 $\mu_k$ 求导，以下直接给出用到得矩阵求导公式
$\frac{\partial{(x^TAx)}}{\partial{x}}=2Ax(假设A为对称阵)$
矩阵求导依然满足链式求导法则。所以可以将 $(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k)$ 中的 $(x_i-\mu_k)$ 当作x，求完外层的导数后再求里面的相乘即可。
$\begin{equation} \begin{aligned} \frac{\partial{L(\theta,\lambda)}}{\partial\mu_k}=&\sum_{i=1}^nΣ_k^{-1}(x_i-\mu_k)P(z_i=Ck|x_i,\theta^t) \\=&Σ_k^{-1}\sum_{i=1}^n(x_i-u_k)P(z_i=Ck|x_i,\theta^t) \\=&0 \\即：&\sum_{i=1}^n(x_i-u_k)P(z_i=Ck|x_i,\theta^t)=0 \\=&\sum_{i=1}^nx_iP(z_i=Ck|x_i,\theta^t)-\sum_{i=1}^n\mu_kP(z_i=Ck|x_i,\theta^t) \\=&\sum_{i=1}^nx_iP(z_i=Ck|x_i,\theta^t)-\mu_k\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t) \\=&0 \end{aligned} \end{equation}$
移项得
$u_k=\frac{\sum\limits_{i=1}^nx_iP(z_i=Ck|x_i,\theta^t)}{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)}$
再对 $Σ_k$ 求导。

对于 $Σ_k$ ，我们知道，它是一个矩阵，标量对矩阵求导可以对每一个分量求导求解，或者利用迹技巧直接求解。

本文两种都讲一次吧，读者对哪种感兴趣就用哪种

第①种：分量求导

先认识一下下面两个求导常用公式(A为矩阵)，此处不作推导，感兴趣可以百度或者看书
$In|A|)^{'}=(A^{-1})^{T}; \\(A^{-1})'=-A^{-1}A'A^{-1};$
对 ${Σ}_k$ 求导
$\begin{equation} \begin{aligned} \frac{\partial{L(\theta,\lambda)}}{\partial{Σ}_k}=&\sum_{i=1}^n \left[ -\frac{1}{2}({Σ}_k^{-1})^{T}+\frac{1}{2}(x_i-\mu_k)^T{Σ}_k^{-1}{Σ}_k^{'}{Σ}_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t) \\=&\sum_{i=1}^n \left[ -\frac{1}{2}{Σ}_k^{-1}+\frac{1}{2}(x_i-\mu_k)^T{Σ}_k^{-1}{Σ}_k^{'}{Σ}_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t) \end{aligned} \end{equation}\tag{1}$

对于里面的 $(x_i-\mu_k)^T{Σ}_k^{-1}{Σ}_k^{'}{Σ}_k^{-1}(x_i-\mu_k)$ ，我们知道 $Σ_k$ 是协方差矩阵，我们分别对里面的分量进行求导。我们令 $A={Σ}_k^{-1}(x_i-\mu_k)$ ，则 $(x_i-\mu_k)^T{Σ}_k^{-1}{Σ}_k^{'}{Σ}_k^{-1}(x_i-\mu_k)=A^TΣ_k^{'}A$ ，所以
$\frac{\partial{A^TΣ_kA}}{\partial{Σ_{ij}}}=A_i*A_j=(A*A^T)_{ij}$
为啥等于这个呢？来看**(以下省略掉 ${Σ}_k^{-1}$ ,不影响最终结果，后面运算的时候再加回去即可，现在只是证明上面所写的合理性)**
$A^TΣ_kA= \begin{pmatrix} (x^1-\mu^1) & (x^2-\mu^2) \end{pmatrix} \begin{pmatrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{pmatrix} \begin{pmatrix} (x^1-\mu^1) \\ (x^2-\mu^2) \end{pmatrix}$
再看
$AA^{T}=\begin{pmatrix} (x^1-\mu^1) \\ (x^2-\mu^2) \end{pmatrix} \begin{pmatrix} (x^1-\mu^1) & (x^2-\mu^2) \end{pmatrix} =\begin{pmatrix} (x^1-\mu^1)(x^1-\mu^1) & (x^1-\mu^1)(x^2-\mu^2) \\(x^2-\mu^2)(x^1-\mu^1) & (x^2-\mu^2)(x^2-\mu^2) \end{pmatrix}$
对 $Σ_{ij}$ 求导相当于矩阵的每一个元素对 $Σ_{ij}$ 求导，那么理论上也只有对应位置的数值是1，其余为0。因为其余元素被视为常数，而对应位置的求导就是标量对标量的求导，所以直接等于1。比如对 $Σ_{11}$ 求导，所得
$\begin{equation} \begin{aligned} \frac{\partial{A^TΣ_kA}}{\partial{Σ_{11}}}=& \begin{pmatrix} (x^1-\mu^1) & (x^2-\mu^2) \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} (x^1-\mu^1) \\ (x^2-\mu^2) \end{pmatrix} \\=&(x^1-\mu^1)(x^1-\mu^1) \\=&(AA^T)_{11} \end{aligned} \end{equation}$
所以，以此类推
$\frac{\partial{A^TΣ_kA}}{\partial{Σ_{k}}}=AA^T$
所以公式(1)等于
$\begin{equation} \begin{aligned} \frac{\partial{L(\theta,\lambda)}}{\partial{Σ}_k}=&\sum_{i=1}^n \left[ -\frac{1}{2}{Σ}_k^{-1}+\frac{1}{2}AA^T \right]P(z_i=Ck|x_i,\theta^t) \\=&\sum\limits_{i=1}^n\left[ -\frac{1}{2}Σ_k^{-1}+\frac{1}{2}{Σ}_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^T{Σ}_k^{-1} \right]P(z_i=Ck|x_i,\theta^t) \\=&-\sum\limits_{i=1}^n\frac{1}{2}Σ_k^{-1}P(z_i=Ck|x_i,\theta^t)+\sum\limits_{i=1}^n\frac{1}{2}{Σ}_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^T{Σ}_k^{-1}P(z_i=Ck|x_i,\theta^t) \\=&0 \end{aligned} \end{equation}$
移项
$\begin{equation} \begin{aligned} &\sum\limits_{i=1}^n\frac{1}{2}Σ_k^{-1}P(z_i=Ck|x_i,\theta^t)=\sum\limits_{i=1}^n\frac{1}{2}{Σ}_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^T{Σ}_k^{-1}P(z_i=Ck|x_i,\theta^t) \\&即\sum\limits_{i=1}^nΣ_k^{-1}P(z_i=Ck|x_i,\theta^t)=\sum\limits_{i=1}^n{Σ}_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^T{Σ}_k^{-1}P(z_i=Ck|x_i,\theta^t) \\&等式左右，都左乘以Σ_k得& \\&\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t)=\sum\limits_{i=1}^n(x_i-\mu_k)(x_i-\mu_k)^T{Σ}_k^{-1}P(z_i=Ck|x_i,\theta^t) \\&等式左右，都右乘以Σ_k得& \\&Σ_k\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t)=\sum\limits_{i=1}^n(x_i-\mu_k)(x_i-\mu_k)^TP(z_i=Ck|x_i,\theta^t) \end{aligned} \end{equation}$
所以
$Σ_k=\frac{\sum\limits_{i=1}^n(x_i-\mu_k)(x_i-\mu_k)^TP(z_i=Ck|x_i,\theta^t)}{\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t)}$
第②种：迹技巧

对于迹技巧，先来看两个微分公式（A是矩阵，并且可逆），此处不作推导，感兴趣可以百度或者看书
$d|A|=|A|tr(A^{-1}dA); \\d(A^{-1})=-A^{-1}(dA)A^{-1}$
对于迹技巧，对原函数求微分,原函数与 $Σ_k$ 相关的只有两项

第一项 $log|Σ_k|$
$d(log|Σ_k|)=\frac{1}{|Σ_k|}d|Σ|=\frac{1}{|Σ_k|}|Σ_k|tr(Σ_k^{-1}dΣ_k)=tr(Σ_k^{-1}dΣ_k)$
第二项 $(x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k)$
$\begin{equation} \begin{aligned} d((x_i-\mu_k)^TΣ_k^{-1}(x_i-\mu_k))=-(x_i-\mu_k)^TΣ_k^{-1}(dΣ_k)Σ_k^{-1}(x_i-\mu_k) \end{aligned} \end{equation}$
所以，原函数的微分
${dL(\theta,\lambda)}=\sum_{i=1}^n \left[ -\frac{1}{2}tr(Σ_k^{-1}dΣ_k)+\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(dΣ_k)Σ_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t)$
给其套入迹
$\begin{equation} \begin{aligned} tr({dL(\theta,\lambda)})=&tr\left( \sum_{i=1}^n\left[ -\frac{1}{2}tr(Σ_k|^{-1}dΣ_k)+\frac{1}{2}(x_i-\mu_k)^TΣ_k^{-1}(dΣ_k)Σ_k^{-1}(x_i-\mu_k) \right]P(z_i=Ck|x_i,\theta^t) \right) \\=&\sum_{i=1}^n\left[\frac{1}{2}tr(Σ_k^{-1}dΣ_k)+\frac{1}{2}tr((x_i-\mu_k)^TΣ_k^{-1}(dΣ_k)Σ_k^{-1}(x_i-\mu_k))\right]P(z_i=Ck|x_i,\theta^t) \\=&\sum_{i=1}^n\left[-\frac{1}{2}tr(Σ_k^{-1}dΣ_k)+\frac{1}{2}tr(Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1}dΣ_k)\right]P(z_i=Ck|x_i,\theta^t) \\=&\sum_{i=1}^n\left[\frac{1}{2}tr(-Σ_k^{-1}dΣ_k+Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1}dΣ_k)\right]P(z_i=Ck|x_i,\theta^t) \\=&\sum_{i=1}^n\left[\frac{1}{2}tr\left(-Σ_k^{-1}+Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1})dΣ_k\right)\right]P(z_i=Ck|x_i,\theta^t) \\=&tr\left(\sum_{i=1}^n\frac{1}{2}(P(z_i=Ck|x_i,\theta^t)(-Σ_k^{-1}+Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1}))dΣ_k\right) \end{aligned} \end{equation}$
去掉迹得
$\begin{equation} \begin{aligned} &{dL(\theta,\lambda)}=\sum_{i=1}^n\frac{1}{2}(P(z_i=Ck|x_i,\theta^t)(-Σ_k^{-1}+Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1}))dΣ \\&即\frac{dL(\theta,\lambda)}{dΣ_k}=\sum_{i=1}^n\frac{1}{2}P(z_i=Ck|x_i,\theta^t)(-Σ_k^{-1}+Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1})=0 \end{aligned} \end{equation}$
移项
$\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)Σ_k^{-1}=\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)Σ_k^{-1}(x_i-\mu_k)(x_i-\mu_k)^TΣ_k^{-1}$
和上面第一种方法一样，因为 $P(z_i=Ck|x_i,\theta^t)$ 是标量，故等式左右，先都左乘 $Σ_k$ ，再都右乘 $Σ_k$ ，得
$Σ_k\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)=\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)(x_i-\mu_k)(x_i-\mu_k)^T$
最终
$Σ_k=\frac{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)(x_i-\mu_k)(x_i-\mu_k)^T}{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)}$

结果

$p_k=\frac{1}{n}\sum_{i=1}^nP(z_i=Ck|x_i,\theta^t);\\ u_k=\frac{\sum\limits_{i=1}^nx_iP(z_i=Ck|x_i,\theta^t)}{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)}; \\Σ_k=\frac{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)(x_i-\mu_k)(x_i-\mu_k)^T}{\sum\limits_{i=1}^nP(z_i=Ck|x_i,\theta^t)}$

那么，接下来只需要计算出 $P(z_i=Ck|x_i,\theta^t)$ ， $\theta$ 是参数，下面省略掉
$P(z_i=Ck|x_i)=\frac{P(z_i=Ck,x_i)}{P(x_i)}$
对于 $P(x_i)$
$P(x_i)=\sum\limits_{z_i}P(x_i,z_i)=\sum\limits_{k=1}^KP(x_i,z_i=Ck)$
前面我们算出来过 $P(x_i,z_i=Ck)=p_k*N(x_i|\mu_k,Σ_k)$

所以
$P(z_i=Ck|x_i)=\frac{p_k*N(x_i|\mu_k,Σ_k)}{\sum\limits_{k=1}^Kp_k*N(x_i|\mu_k,Σ_k)}$
请务必注意式子中，分子处得k来自左边的Ck，而分母的k是来自求和符号

算法流程

①随机初始化模型参数 $p^t,\mu^t,Σ^t$ 。

②计算出 $P(z_i=Ck|x_i,\theta)$

③依据公式计算出 $p^{t+1},\mu^{t+1},Σ^{t+1}$

④计算 $p^{t+1},\mu^{t+1},Σ^{t+1}$ 和 $p^t,\mu^t,Σ^t$ 的差值，如果差值小于 $\epsilon$ (自己设定的值)。如果小于则说明变化太小，证明收敛，结束算法。否则循环②，③步骤

代码实现

GMM高斯混合模型代码实现

结束

至此推导和代码已都全部完成。很多地方推导并不严谨，如有问题，还请指出。阿里嘎多

在这里插入图片描述

篝火者2312

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
GMM高斯混合模型原理推导(二)

前言上一篇GMM高斯混合模型原理推导(一)，我们的连乘已经变成了连加号，只需要求出P(z,x)P(z,x)P(z,x)相关的概率即可原理推导对于P(z,x)P(z,x)P(z,x)，为什么不是P(z,x∣θ)P(z,x|\theta)P(z,x∣θ)？因为θ\thetaθ是参数，不是随机变量P(zi=Ck,xi)=P(xi∣zi=Ck)P(zi=Ck)=pk∗N(xi∣μk,Σk)P(z_i=Ck,x_i)=P(x_i|z_i=Ck)P(z_i=Ck)=p_k*N(x_i|\mu_k,Σ_k)P
复制链接

扫一扫