数学小抄: Gaussian的基础操作

平凡矩阵

已于 2022-09-19 10:38:15 修改

阅读量511

点赞数

分类专栏：数学文章标签：机器学习算法人工智能

于 2022-09-18 19:01:54 首次发布

本文链接：https://blog.csdn.net/nkc555/article/details/126867207

版权

数学专栏收录该内容

15 篇文章 0 订阅

订阅专栏

前言:

高斯的基础操作在SLAM和Robot Learning中都有广泛的应用. 这些基础操作包括有: 线性变换,高维高斯分布的边缘分布与条件分布求解, MLE求解均值与方差, EM求解混合模型。本篇博客参考于白板推导以及SLAM基础知识博客 , 我选择SLAM中的理解思路即 $P(a,b)\sim P(b) P(a|b)$ 对条件分布进行推导, 这在PRML中也是采用类似的思路但是需要采用配方法。然后选择白板中引入舒尔补实现推导, 但这里并不会直接采用白板大神在视频里的构造，而是用了两次舒尔补实现推导。

1. MVN (Multivariate Normal Distribution) 多维高斯分布

1.1 线性变换:
对 $\boldsymbol{x}\sim \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})$ 作线性变换 $\boldsymbol{y}\sim \boldsymbol{Ax+b}$ , 有 $\boldsymbol{y} \sim \mathcal{N}(A\mu+b,A\Sigma A^T)$
证明:
$\begin{equation} \begin{split} \rm{E}[y]=\rm{E}[Ax+b]=AE[x]+b=A\mu+b\\ \rm{Var}[y]=\rm{Var}[Ax+b]=\rm{Var}[Ax]=A\cdot\rm{Var}\cdot A^T \end{split} \end{equation}$

1.2 从线性变换到高维高斯分布 $(x_a,x_b)\sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma})$ , $\mathbf{\Sigma}=\begin{bmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}& \Sigma_{bb}\end{bmatrix}$ 的条件分布与边缘分布.

已知高维高斯分布求 $p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)$
$p(x_a)$ 与 $p(x_b)$ :
$\begin{aligned} x_a &= [I,0]\begin{bmatrix}x_a\\x_b\end{bmatrix} \\ x_b &= [0,I]\begin{bmatrix}x_a \\ x_b \end{bmatrix} \end{aligned}$
$\begin{split} \rm{E}[x_a]=[I,0]\begin{bmatrix}\mu_a\\ \mu_b\end{bmatrix}=\mu_a\\ \rm{Var}[x_a]=[I,0]\begin{bmatrix}\Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} & \Sigma_{bb} \end{bmatrix} \begin{bmatrix}I \\ 0 \end{bmatrix} = \Sigma_{aa}\\ \rm{E}[x_b]=[0,I]\begin{bmatrix}\mu_a\\ \mu_b\end{bmatrix}=\mu_b\\ \rm{Var}[x_b]=[0,I]\begin{bmatrix}\Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} & \Sigma_{bb} \end{bmatrix} \begin{bmatrix}0 \\ I \end{bmatrix} = \Sigma_{bb} \end{split}$
$x_a \sim \mathcal{N}(\mu_a,\Sigma_{aa})$ 以及 $x_b\sim \mathcal{N}(\mu_b,\Sigma_{bb})$
$p(x_a|x_b),p(x_b|x_a)$ : 需要引入舒尔补, 舒尔补数学小抄

首先对于高斯分布的表达式，我们可以舍弃其分式前部,只看 $\rm{exp(\cdot)}$ 部分.
$p(x_a,x_b)\propto exp(-\frac{1}{2}\begin{bmatrix}x_a\\x_b\end{bmatrix}^T\begin{bmatrix}\Sigma_{aa}& \Sigma_{ab}\\ \Sigma_{ba} & \Sigma_{bb}\end{bmatrix}^{-1}\begin{bmatrix}x_a\\ x_b\end{bmatrix})$
式子中涉及对于协方差矩阵的求逆，舒尔补在这里派上用场.
下面会是关于舒尔补的一些基础等式
$\begin{bmatrix}I & 0\\-CA^{-1}& I\end{bmatrix}\begin{bmatrix}A&B\\C &D\end{bmatrix}\begin{bmatrix}I & -A^{-1}B\\0& I\end{bmatrix}=\begin{bmatrix}A& 0 \\0& D-CA^{-1}B\end{bmatrix}$
$\begin{bmatrix}I & -BD^{-1}\\ 0 & I \end{bmatrix}\begin{bmatrix} A & B \\ C & D \end{bmatrix}\begin{bmatrix} I & 0\\ -D^{-1}C & I \end{bmatrix} = \begin{bmatrix} A-BD^{-1}C & 0\\ 0 & D\\ \end{bmatrix}$
$\begin{bmatrix}A&B\\C&D\end{bmatrix} = \begin{bmatrix}I & 0\\CA^{-1}&I\end{bmatrix}\begin{bmatrix}A& 0 \\0 & D-CA^{-1}B\end{bmatrix}\begin{bmatrix}I & A^{-1}B \\ 0 & I\end{bmatrix}$
$\begin{bmatrix}A & B \\C &D\end{bmatrix}^{-1}=\begin{bmatrix}I & -A^{-1}B\\0 &I\end{bmatrix}\begin{bmatrix}A^{-1}& 0\\0& (D-CA^{-1}B)^{-1}\end{bmatrix}\begin{bmatrix}I & 0 \\-CA^{-1} & I\end{bmatrix}$
$\begin{bmatrix} A & B\\ C & D \end{bmatrix} = \begin{bmatrix} I & BD^{-1}\\ 0 & I \end{bmatrix}\begin{bmatrix} A-BD^{-1}C & 0 \\ 0 & D \end{bmatrix}\begin{bmatrix} I & 0\\ D^{-1}C & I \end{bmatrix}$
$\begin{bmatrix} A & B \\ C & D \end{bmatrix}^{-1}=\begin{bmatrix} I & 0\\ -D^{-1}C &I \end{bmatrix}\begin{bmatrix} (A-BD^{-1}C)^{-1} & 0\\ 0 & D^{-1} \end{bmatrix}\begin{bmatrix} I & -BD^{-1}\\ 0 & I \end{bmatrix}$

考虑 $p(x_a,x_b)$ 指数幂部分:
$\begin{align} -\frac{1}{2}\begin{bmatrix}x_a& x_b\end{bmatrix}\begin{bmatrix} \Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} & \Sigma_{bb} \end{bmatrix}^{-1}\begin{bmatrix} x_a \\ x_b \end{bmatrix} &= -\frac{1}{2} \begin{bmatrix} x_a & x_b \end{bmatrix}\begin{bmatrix}\Lambda_{aa} & \Lambda_{ab}\\ \Lambda_{ba} & \Lambda_{bb} \end{bmatrix} \begin{bmatrix} x_a\\ x_b\end{bmatrix} \\ &= -\frac{1}{2}(\begin{bmatrix}x_a & x_b\end{bmatrix} \begin{bmatrix} I & 0 \\ \Lambda_{ba}\Lambda_{aa}^{-1} & I \end{bmatrix} \begin{bmatrix} \Lambda_{aa} & 0\\ 0 & \Lambda_{bb}-\Lambda_{ba}\Lambda_{aa}^{1}\Lambda_{ab} \end{bmatrix}\begin{bmatrix} I & \Lambda^{-1}_{aa}\Lambda_{ab}\\ 0 & I \end{bmatrix}\begin{bmatrix}x_a \\ x_b \end{bmatrix})\\ &= -\frac{1}{2} (x_a+x_b\Lambda_{ba}\Lambda^{-1}_{aa})\Lambda_{aa}(x_a+\Lambda^{-1}_{aa}\Lambda_{ab}x_b) -\frac{1}{2} x_b(\Lambda_{bb}-\Lambda_{ba}\Lambda^{-1}_{aa}\Lambda_{ab})x_b \end{align}$
对于精度矩阵 $\Lambda$ 可以借用与协方差矩阵之间的关系 $\Sigma$ ，结合舒尔补完成求解:
$\begin{align} \begin{bmatrix} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{bmatrix} &=\begin{bmatrix} \Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} & \Sigma_{bb} \end{bmatrix}^{-1} \\ &= \begin{bmatrix} I & 0\\ -D^{-1}C & I \end{bmatrix} \begin{bmatrix} (A-BD^{-1}C)^{-1} & 0\\ 0 & D^{-1} \end{bmatrix} \begin{bmatrix} I & -BD^{-1}\\ 0 & I \end{bmatrix} \\ &= \begin{bmatrix} I & 0\\ -\Sigma^{-1}_{bb}\Sigma_{ba} &I \end{bmatrix} \begin{bmatrix} (\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1} & 0\\ 0 & \Sigma^{-1}_{bb} \end{bmatrix}\begin{bmatrix} I & -\Sigma_{ba}\Sigma^{-1}_{bb}\\ 0 & I \end{bmatrix}\\ &=\begin{bmatrix} (\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1} & -(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}\Sigma_{ab}\Sigma^{-1}_{bb}\\ -\Sigma^{-1}_{bb}\Sigma_{ba}(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1} & \Sigma^{-1}_{bb}+\Sigma^{-1}_{bb}\Sigma_{ba}(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}\Sigma_{ba}\Sigma^{-1}_{bb} \end{bmatrix} \end{align}$

对于(4)式的后一部分有:
$\begin{align} \Lambda_{bb}-\Lambda_{ba}\Lambda^{-1}_{aa}\Lambda_{ab} &= \Sigma^{-1}_{bb}+\Sigma^{-1}_{bb}\Sigma_{ba}(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}\Sigma_{ba}\Sigma^{-1}_{bb} -\Sigma^{-1}_{bb}\Sigma_{ba}(\Sigma_{aa}\\ &-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})(\Sigma_{aa}-\Sigma_{ab}\Sigma^{-1}_{bb}\Sigma_{ba})^{-1}\Sigma_{ba}\Sigma^{-1}_{bb}\\ &= \Sigma^{-1}_{bb} \end{align}$
对于前一部分,方差显然为 $\Lambda_{aa}$ , 而均值则: 将相应的部分代入:
$x_a + \Lambda^{-1}_{aa}\Lambda_{ab} x_b$
中:最后还是得到
$x_a-\Sigma_{ba}\Sigma^{-1}_{bb}x_b$

注意这里对应的是标准正态分布 $(x-\mu)^T\Sigma(x-\mu)$ 中 $(x-\mu)$ 的部分. 将 $x_a$ 写作标准形式 $(x_a-\mu_a)-\Sigma_{ba}\Sigma^{-1}_{bb}(x_b-\mu_b)$ . 这里注意，在白板中会把这个标准形式命名为 $x_{a\cdot b}$ ,这真的让我很费解, 直到我悟到一个: $p (a ∣ b)$ 是在b发生下关于a的概率分布. 因此其标准正态分布形式为: $(x_a-\mu_a)^T\Sigma_a(x_a-\mu_a)$ . 对照之下可知: 在b发生下a的均值为: $\mu_a+\Sigma_{ba}\Sigma^{-1}_{bb}(x_b-\mu_b)$
~~使用两次舒尔补是我自以为比较有意思的地方，但推导下来发现还是需要用定义去理解不能直接推导得出.看到这里的读者还是选择SLAM那篇博客吧~~

2. MLE 最大似然估计

2.1 MLE中用到的矩阵微分操作:
证明请见矩阵求导公式
(1) $\frac{\partial w^TAw}{\partial w}=2Aw$
(2) $t r [A BC] = t r [C A B] = t r [BC A]$
(3) $x^TAx=tr[x^TAx]=tr[xx^TA]$
(4) $\frac{\partial}{\partial A}tr[AB]=B^T$
(5) $\frac{\partial}{\partial A}log|A|=(A^{-1})^T=(A^T)^{-1}$
(6) $t r [A B] = t r [B A]$
对于各次服从iid的取样而言， $X^{(i)}\sim \mathcal{N}(\mu,\Sigma)$ , 要每次都取到采样的结果就是 $\prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} ; \mu , \Sigma })$ 对其取log-likehood函数有:
$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \log \prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} | \mu , \Sigma }) \\ & = \log \ \prod_{i=1}^m \frac{1}{(2 \pi)^{p/2} |\Sigma|^{1/2}} \exp \left( - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \\ & = \sum_{i=1}^m \left( - \frac{p}{2} \log (2 \pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \end{aligned}$
$\begin{aligned} l(\mu, \Sigma ; ) & = - \frac{mp}{2} \log (2 \pi) - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \end{aligned}$

$\begin{aligned} \frac{\partial }{\partial \mu} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \sum_{i=1}^m \mathbf{ \Sigma^{-1} ( x^{(i)} - \mu ) } = 0 \\ & \text{Since $\Sigma$ is positive definite} \\ 0 & = m \mu - \sum_{i=1}^m \mathbf{ x^{(i)} } \\ \hat \mu &= \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} \end{aligned}$

$\frac{\partial}{\partial A} x^TAx =\frac{\partial}{\partial A} \mathrm{tr}\left[xx^TA\right] = [xx^T]^T = \left(x^{T}\right)^Tx^T = xx^T$
重写log-likehood函数有:
$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \text{C} - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \\ & = \text{C} + \frac{m}{2} \log |\Sigma^{-1}| - \frac{1}{2} \sum_{i=1}^m \mathrm{tr}\left[ \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)^T \Sigma^{-1} } \right] \\ \frac{\partial }{\partial \Sigma^{-1}} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \frac{m}{2} \Sigma - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \ \ \text{Since $\Sigma^T = \Sigma$} \end{aligned}$

$\begin{aligned} 0 &= m \Sigma - \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \\ \hat \Sigma & = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T \end{aligned}$

参考链接

3. EM算法求解GMM中的参数

GMM: k个高斯分布通过线性加权组合而成一个模型. 主要还是几个问题:
(1) 每个高斯成分的参数 $\theta$ 估计;
(2) 权值视为一个隐变量 $z_i\sim [\pi_1,\pi_2,...\pi_k]$ ;
(3) 给定隐变量 $z_i$ 计算对应的条件分布 $x_i \sim p(x|y_i,\theta_{y_i})$
$p(x;\theta,\pi) = \sum^{k}_{c=1} \pi_c\mathcal{N}(x;\mu_c,\Sigma_c)$

EM算法:
E-step与M-step的导出:
对于一个分布的MLE有:
$L(\theta)=\ln \mathcal{P}(\mathbf{X} \mid \theta)$
EM不同于MLE直接给出解析式,而是选择通过迭代的方法实现:
$L(\theta)>L\left(\theta_n\right)$
如果认为 $\mathcal{P}(X|\theta)$ 是受隐变量 $\mathbf{z}$ 的影响则有:
$\mathcal{P}(\mathbf{X} \mid \theta)=\sum_{\mathbf{z}} \mathcal{P}(\mathbf{X} \mid \mathbf{z}, \theta) \mathcal{P}(\mathbf{z} \mid \theta)$
引入Jensen不等式(回忆log函数, 弧在上，而弦在下)有:
$\ln \sum_{i=1}^n \lambda_i x_i \geq \sum_{i=1}^n \lambda_i \ln \left(x_i\right)$
常数 $\lambda_i \geq 0$ , $\sum^n_{i=1}\lambda_i=1$ , 考虑隐变量的分布: $\mathcal{P}(\mathbf{z}|X,\theta_n)\geq 0$ , $\sum_{\mathbf{z}}\mathcal{P}(\mathbf{z}|X,\theta_n)=1$ .

$\begin{split} \mathcal{L}&=log\sum_{\mathbf{z}}p(\mathbf{x},\mathbf{z}) = log\sum_{\mathbf{z}}q(\mathbf{z})\frac{p(\mathbf{x,z})}{q(\mathbf{z})}\\ &\geq \sum_{\mathbf{z}}q(\mathbf{z})log\frac{p(\mathbf{x,z})}{q(\mathbf{z})}\\ &=\sum_{\mathbf{z}}q(\mathbf{z})logp(\mathbf{x,z})-\sum_{\mathbf{z}}q(\mathbf{z})logq(\mathbf{z}) \end{split}$

$\mathcal{H}(q) \overset{\bigtriangleup}{=}-\sum_{\mathbf{z}}q(\mathbf{z})logq(\mathbf{z})$
$\mathcal{F}(q,\theta)\overset{\bigtriangleup}{=} \sum_{\mathbf{z}}q(\mathbf{z})logp(\mathbf{x,z})-\sum_{\mathbf{z}}q(\mathbf{z})logq(\mathbf{z})$

$\mathcal{F}(q,\theta)$ 即为这个log-likehood函数的lower bound:
$\mathcal{L}(\theta) \geq \mathcal{F}(q,\theta)$

E-step： $q^{(t)} \leftarrow argmax_q \mathcal{F}(q,\theta^{t})$ : 固定 $\theta^t$ 确定隐变量的分布
M-step: $\theta^{(t+1)} \leftarrow argmax_{\theta} \mathcal{F}(q^t,\theta)$ : 固定隐变量的分布确定各模型的参数 $\theta$

性质: 每一轮都会improve $\mathcal{F}$ 也会improve $\mathcal{L}$ .

E-step: 寻找隐变量的分布, 最大化 $\mathcal{F}(q,\theta^{(t)})$ :

$\begin{split} \mathcal{F}(q) &= \sum_{\mathbf{z}}q(\mathbf{z})log p(\mathbf{x,z})-\sum_{z}q(\mathbf{z})log q(\mathbf{z})\\ &= \sum_{\mathbf{z}}q(\mathbf{z})log \frac{p(\mathbf{z}|x)p(x)}{q(\mathbf{z})}\\ &= \sum_{\mathbf{z}}q(\mathbf{z})log \frac{p(\mathbf{z}|x)}{q(\mathbf{z})}+\sum_{\mathbf{z}}q(\mathbf{z})log p(\mathbf{x})\\ &= \sum_{\mathbf{z}}q(\mathbf{z})log \frac{p(\mathbf{z}|x)}{q(\mathbf{z})}+log p(\mathbf{x})\\ &=-KL(q(\mathbf{z})|p(\mathbf{z}|\mathbf{x}))+\mathcal{L} \end{split}$

KL散度部分衡量两个分布之间的距离iff $q = p$ 时KL=0, 也就是说只有在 $q^t(\mathbf{z})=p(\mathbf{z}|x,\theta^t)$ , $\mathcal{F}(q^t,\theta^t)=\mathcal{L}(\theta^t)$ . 因此,当我们在计算 $p(\mathbf{z}|\mathbf{x},\theta^t)$ 时就是在最大化 $\mathcal{F}(q,\theta^t)$ .

M-step: 寻找 $\theta^{(t+1)}$ 最大化 $\mathcal{F}(q^{(t)},\theta)$ .
$\mathcal{F}(q^{t},\theta)=\sum_{\mathbf{z}}q^{t}(\mathbf{z})\rm{log} p(\mathbf{x},\mathbf{z}|\theta)+ \mathcal{H}(q^{t}).$

$\mathcal{H}(q^t)$ 在这一步中是常数, 我们只需要计算log-likehood部分即可:
$\sum_{\mathbf{z}}q^{t}(\mathbf{z})\rm{log}p(\mathbf{x,z}|\theta)$

在最大化 $\mathcal{F}$ 的时候还会最大化 $\mathcal{L}$ :
$\begin{split} \mathcal{L}(\theta^{t+1}) &\geq \mathcal{F}(q^{t},\theta^{t+1})\\ &=\underset{\theta}{max}\mathcal{F}(q^t,\theta)\\ &\geq \mathcal{F}(q^t,\theta^t)=\mathcal{L} \end{split}$

E-step与M-step: ~~EM上的GMM还是太难了. 下面简单抄写白板中的内容~~

白板中的GMM: $p(x)=\sum^K_{k=1}p_k\mathcal{N}(x|\mu_k,\Sigma_k)$
$X$ : observed data $\rightarrow x_1,x_2, ...,x_N$
$(X, Z)$ : complete data $\rightarrow (x_1,z_1),(x_2,z_2), ..., (x_N,z_N)$
$x$ : observed variable
$z$ : latent variable

z	$c_1$	$c_2$	$\dots$	$c_K$
p	$p_1$	$p_2$	$\dots$	$p_K$

$\sum^K_{k=1}p_k=1$ ; $x|z=c_k\sim\mathcal{N}(x|\mu_k,\Sigma_k)$ 对于隐变量 $z$ 的理解还是李航老师书里讲得更深刻，即 $x$ 的生成需要先通过隐变量确定一个高斯再由该高斯生成, 显然隐变量为一个离散随机变量，因此确定哪个高斯也服从于一个概率分布,作用时再由各个高斯iid.起作用.但就公式的简洁上，白板中的公式更简单.
$\begin{split} p(y,\gamma|\theta) &= \prod^N_{j=1}p(y_j,\gamma_{j1},\gamma_{j2},\cdots,\gamma_{jk}|\theta)\\ &=\prod^K_{k=1}\prod^N_{j=1}[\alpha_k\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ &连乘前后交换顺序无关紧要\\ &=\prod^N_{j=1}\prod^K_{k=1}[\alpha_k\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ &=\prod^N_{j=1}\underbrace{[\alpha_j\phi(y_j|\theta_k)]\cdot 1\cdot1 \cdots 1}_{K项} \end{split}$
$\alpha_j$ 表示第 $j$ 项观测数据对应的权重(几何角度)或者说是概率值(混合模型角度)

E-step中符号 $E_{Z|X,\theta^{(t)}}[log P(X,Z|\theta)]$ 的意思是: $\int_{Z} logp(X,Z|\theta)p(Z|X,\theta^{t})dz$ 是一个关于在观测数据已知, 上一步各个高斯分布参数已知的情况下关于隐变量的积分.

$\begin{split} Q(\theta,\theta^{t}) &= \int_Z logP(X,Z|\theta)p(Z|X,\theta^t)dZ\\ &=\sum_{Z}log[\prod^N_{i=1}P(x_i,Z_i|\theta)][\prod^N_{i=1}P(Z_i|x_i,\theta^t)]dz\\ &=\sum_{Z}log[\sum^N_{i=1}P(x_i,Z_i|\theta)][\prod^N_{i=1}P(Z_i|x_i,\theta^t)]dz\\ &=\sum_{Z_1,Z_2,\cdots,Z_N} \sum^N_{i=1}logP(x_i,Z_i|\theta)\prod^N_{i=1}P(Z_i|x_i,\theta^t)\\ &=\sum^N_{i=1}\sum_{Z_i}logP(x_i,Z_i|\theta)P(Z_i|x_i,\theta^t) \end{split}$
上式中
$\begin{split} &\sum_{Z_1,Z_2,\cdots,z_N}\sum^N_{i=1}logP(x_i,Z_i|\theta)\prod^N_{i=1}p(Z_i|x_i,\theta^{t})\\ &= \sum_{Z_1,Z_2,\cdots,Z_N}[logP(x_1,Z_1|\theta)+logP(x_2,Z_2|\theta)+\cdots+logP(x_N,Z_N|\theta)]\prod^N_{i=1}P(Z_i|x_i,\theta^t)\\ & 取出第一项有:\\ &= \sum_{Z_1,Z_2,\cdots,Z_N}logP(x_1,Z_1|\theta)\prod^N_{i=1}P(Z_i|x_i,\theta^t)\\ &= \sum_{Z_1,Z_2,\cdots,Z_N}logP(x_1,Z_1|\theta)P(Z_1|x_1,\theta^t)\prod^N_{i=2}P(Z_i|x_i,\theta^t)\\ &= \sum_{Z_1}logP(x_1,Z_1|\theta)P(Z_1|x_1,\theta^t) \sum_{Z_2,\cdots,Z_N}\prod^N_{i=2}P(Z_i|x_i,\theta^t)\\ &看后面的连加与连乘符号:\\ &\sum_{Z_2,\cdots,Z_N}P(Z_2|x_2,\theta^t)P(Z_3|x_3,\theta^t)P(Z_3|x_3,\theta^t)\cdots P(Z_N|x_N,\theta^t)\\ &=\sum_{Z_2}P(Z_2|x_2)\sum_{Z_3}P(Z_3|x_3)\sum_{Z_4}P(Z_4|x_4)\cdots\sum_{Z_N}P(Z_N|x_N)\\ &=1 \cdot 1 \cdots 1 \cdot 1\\ &最后只剩下\\ &\sum_{Z_1}logP(x_1,Z_1|\theta)P(Z_1|x_1,\theta^t) \end{split}$

化简后的 $Q(\theta,\theta^t)$ 代入:
$P(x,Z)=P(Z)P(x|z)=p_Z\mathcal{N}(x|\mu_Z,\sigma_Z)$
$\frac{p(x,Z)}{p(x)} = \frac{p_Z\mathcal{N}(x|\mu_Z,\Sigma_Z)}{\sum^K_{k=1}p_k\mathcal{N}(x|\mu_k,\Sigma_k)}$
有:
$Q(\theta,\theta^t)=\sum^N_{i=1}\sum_{Z_i}log\ [p_{Z_i}\mathcal{N}(x_i|\mu_{Z_i},\Sigma_{Z_i})]\frac{P_{Z_i}\mathcal{N}(x_i|\mu_i,\Sigma_{Z_i})}{\sum^K_{k=1}p_k\mathcal{N}(x_i|\mu_k,\Sigma_k)}$
M-step: 求解公式中的参数,
$\sum^K_{k=1}\sum^N_{i=1}[logp_k+log\mathcal{N}(x_i|\mu_{Z_i},\Sigma_{Z_i})]p(Z_i=k|x_i,\theta^t)$
先求解 $p^{t+1}_k$ , $p^{t+1}_k$ 的求解满足约束条件 $\sum^K_{k=1}p_k=1$ ;
$\sum^K_{k=1}\sum^N_{i=1}logp_kp(z_i=k|x_i,\theta^t)+\lambda(\sum^K_{k=1}p_k-1)$
没有了 $log\mathcal{N}(x_i|\mu_{Z_i},\Sigma_{Z_i})p(Z_i=k|x_i,\theta^t)$ 项其对于 $p_k$ 而言是常数项。L函数对 $p_k$ 求偏导有:
$\frac{\partial}{\partial p_k}L=\sum^N_{i=1}\frac{1}{p_k}p(z_i=k|x_i,\theta^t)+\lambda=0$
两边同乘 $p_k$ 以求解 $\lambda$ 有:
$\sum^N_{i=1}p(z_i=k|x_i,\theta^t)+\lambda p_k = 0$
利用 $\sum^K_{k=1}p_k=1$
$\begin{split} &\sum^K_{k=1}\sum^N_{i=1}p(z_i=k|x_i,\theta^t)+\lambda \sum^K_{k=1}p_k=0\\ &\lambda = -\sum^N_{i=1}\underbrace{\sum^K_{k=1}p(z_i=k|x_i,\theta^t)}_{1}=-N \end{split}$
将 $\lambda$ 回代有:
$p^{t+1}_{k}=\frac{\sum^N_{i=1}p(z_i=k|x_i,\theta^t)}{N}$

$\mu_k$ 与 $\Sigma_k$ 的求解则与MLE中的类似(使用矩阵的求导法则,另外注意在广义EM中提到的后一参数用更新后的前一参数更新的思路):
$\begin{split} &\sum^K_{k=1}\sum^N_{i=1}[log\mathcal{N}(x_i|\mu_{Z_i},\Sigma_{Z_i})]p(Z_i=k|x_i,\theta^t) \\ &= \sum^K_{k=1}\sum^N_{i=1}[log(\frac{1}{\sqrt{2\pi}})-log|\Sigma_k|-\frac{1}{2}(x_n-\mu_k)^T\Sigma^{-1}_k(x_n-\mu_k)]p(Z_i=k|x_i,\theta^t) \end{split}$
对 $\mu_k$ 求偏导有:
$\mu^{t+1}_k = \frac{\sum^N_{i=1}p(Z_i=k|x_i,\theta^t)x_i}{\sum^N_{i=1}p(Z_i=k|x_i,\theta^t)}$
对 $\Sigma_k$ 求偏导并注意在外层乘上 $\sum^N_{i=1}p(z_i=k|x_i,\theta^t)$ 有:
$\Sigma^{t+1}_{k}=\frac{\sum^N_{i=1}p(z_i=k|x_i,\theta^t)(x_i-\mu^{t+1}_k)(x_i-\mu^{t+1})^T}{\sum^N_{i=1}p(Z_i=k|x_i,\theta^t)}$

GMR: GMM与高斯条件分布的结合:
$\pi_{y|x_k}=\frac{\mathcal{N_k}(x|\mu_{xk},\Sigma_{xk})}{\Sigma^K_{l=1}\mathcal{N}_l(x|\mu_{xl},\Sigma_{xl})}$
$p(y|x)=\Sigma^{K}_{k=1}\pi_{y|x_k}\mathcal{N}_k(y|\mu_{y|x_k},\Sigma_{y|x_k})$