机器学习-白板推导系列(二)-数学基础笔记

最新推荐文章于 2023-07-29 14:09:01 发布

Paul-Huang

最新推荐文章于 2023-07-29 14:09:01 发布

阅读量483

点赞数

分类专栏：机器学习-白板推导文章标签：机器学习

本文链接：https://blog.csdn.net/huang1024rui/article/details/112170547

版权

机器学习-白板推导专栏收录该内容

23 篇文章 43 订阅

订阅专栏

1.高斯分布

假设有 $N$ 个样本，每个样本都是 $p$ 维向量的数据：
$X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}$
且 $x_i\mathop{~}\limits _{iid} N(\mu,\Sigma)$ ,且 $\theta = (\mu,\Sigma)$ 。
一般地，高斯分布的概率密度函数写为：
$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$

1.1 一维高斯分布下的估计

$\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),$ 一维高斯分布下的MLE：
$\begin{array}{r} \theta_{MLE}&=\mathop{argmax}\limits _{\theta}(\log p(X|\theta))\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}(\sum\limits _{i=1}^{N}\log p(x_{i}|\theta))\\ &=\mathop{argmax}\limits _{\theta}(\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2}))\end{array}$

1.1.1 求一维高斯分布下的极大似然估计

极大似然估计是一种用来在给定观察数据下估计所需参数的技术。

比如，如果已知人口分布遵从正太分布，但是均值和方差未知， MLE（maximum likelihood estimation）可以利用有限的样本来估计这些参数。

首先对 $\mu$ 的极值可以得到：
$\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$
于是求得 $\color{red}\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}$ ：
$\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}$
其次对 $\theta$ 中的另一个参数 $\sigma$ ，有：
$\begin{array}{r}\sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\\ &=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\end{array}$
于是求得 $\color{red}\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$ ：
$\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$

1.1.2 一维高斯分布极值的无偏估计

无偏估计的意义
所谓总体参数估计量的无偏性指的是，基于不同的样本，使用该估计量可算出多个估计值，但它们的平均值等于被估参数的真值。
1.在某些场合下，无偏性的要求是有实际意义的。例如，假设在某厂商与某销售商之间存在长期的供货关系，则在对产品出厂质量检验方法的选择上，采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看，这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高，厂商吃亏了；但下一次的估计很可能偏低，厂商的损失就可以补回来。由于双方的交往会长期多次发生，这时采用无偏估计，总的来说可以达到互不吃亏的效果。
2. 不过，在某些场合中，无偏性的要求毫无实际意义。这里又有两种情况：
- 一种情况是在某些场合中不可能发生多次抽样。例如，假设在某厂商和某销售商之间只会发生一次买卖交易，此后不可能再发生第二次商业往来。这时双方谁也吃亏不起，这里就没有什么“平均”可言。
- 另一种情况则是估计误差不可能相互补偿，因此“平均”不得。例如，假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候，既使我们的估计的确做到了无偏，但如果这一批导弹的系统误差实际上要么偏左，要么偏右，结果只能是大部分导弹都不能命中目标，不可能存在“偏左”与“偏右”相互抵消，从而“平均命中”的概念。
$\mu_{MLE}$ 无偏估计：
$\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu$
因此对数据集求期望时， $\mu_{MLE}=\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]$ ， $\mu_{MLE}$ 是无偏差的。
$\sigma_{MLE}$ 的无偏估计：
对 $\sigma_{MLE}$ 求期望的时候由于使用了单个数据集的 $\mu_{MLE}$ ，
$\begin{array}{l}\mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\\ &=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\\ &= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-\mu^{2})]-\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\\ &=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-\color{red}{Var[\mu_{MLE}]} \\ &=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}] =\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2}\end{array}$
其中 $V a r$ 表示方差；因此对数据集求方差时， $\sigma_{MLE}\neq \mathbb{E}_{\mathcal{D}}[\sigma_{MLE}]$ .

$\color{red}\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$ 不是无偏差的。 $\color{red}\sigma_{MLE}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$ 才是无偏估计。
通过推到 $\sigma_{MLE}^{2}$ 的估计偏小，这是因为：在抽样时，样本落在中间区域的概率大，所以抽样的数据离散程度小于总体，所以抽样方差小。

1.2 高维高斯分布与等高线是“椭圆”

1.2.1 高维高斯分布与马氏距离

高维高斯分布
假设数据 $x\in \mathbb{R}^{p}$ ，是一个随机向量：
$\begin{array}{r}x\overset{iid}{\sim }N(\mu ,\Sigma )=\frac{1}{(2\pi )^{D/2}|\Sigma |^{1/2}}exp(-\frac{1}{2}\underset{二次型}{\underbrace{(x-\mu)^{T}\Sigma ^{-1}(x-\mu)}})\\ x=\begin{pmatrix} x_{1}\\ x_{2}\\ \vdots \\ x_{p} \end{pmatrix}\mu =\begin{pmatrix} \mu_{1}\\ \mu_{2}\\ \vdots \\ \mu_{p} \end{pmatrix}\Sigma = \begin{bmatrix} \sigma _{11}& \sigma _{12}& \cdots & \sigma _{1p}\\ \sigma _{21}& \sigma _{22}& \cdots & \sigma _{2p}\\ \vdots & \vdots & \ddots & \vdots \\ \sigma _{p1}& \sigma _{p2}& \cdots & \sigma _{pp} \end{bmatrix}_{p\times p}\end{array}$
令 $\Delta =(x-\mu )^{T}\Sigma ^{-1}(x-\mu )$ 。其中 $\Sigma$ 一般是半正定的，在本次证明中假设是 $\color{red}正定的$ ，即所有的特征值都是正的，没有0。
1. 正定矩阵(PD):
  给定一个大小为 $n\times n$ 的 $\color{red}实对称矩阵A$ ，若对于任意长度为 $n$ 的非零向量 $X$ ，有 $X^TAX>0$ 恒成立，则矩阵 $A$ 是一个正定矩阵。
2. 半正定矩阵(PSD)
  给定一个大小为 $n\times n$ 的 $\color{red}实对称矩阵 A$ ，若对于任意长度为 $n$ 的非零向量 $X$ ，有 $X^TAX≥0$ 恒成立，则矩阵 $A$ 是一个半正定矩阵。
马氏距离
$\sqrt{(x-\mu)^{T}\Sigma ^{-1}(x-\mu)}$ 为马氏距离

$x$ 与 $\mu$ 之间，当 $\Sigma$ 为 $I$ ( $\color{red}单位矩阵$ )时马氏距离即为 $\color{red}欧氏距离$ 。

1.2.2 高斯分布等高线为椭圆

$\Sigma$ 特征值分解
- 任意的 $\times N$ 实对称矩阵都有 $N$ 个线性无关的特征向量。
- 这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。
故实对称矩阵 $\Sigma$ 可被分解成 $\Sigma=U\Lambda U^{T}$ 。其中 $UU^{T}=U^{T}U=I，\underset{i=1,2,\cdots ,p}{\Lambda =diag(\lambda _{i})}，U=(u _{1},u _{2},\cdots ,u _{p})_{p\times p}$ 。因此可以写成：
$\begin{array}{r}\Sigma=U\Lambda U^{T} =\begin{pmatrix} u _{1} & u _{2} & \cdots & u _{p} \end{pmatrix}\begin{bmatrix} \lambda _{1} & 0 & \cdots & 0 \\ 0 & \lambda _{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda _{p} \end{bmatrix}\begin{pmatrix} u_{1}^{T}\\ u_{2}^{T}\\ \vdots \\ u_{p}^{T} \end{pmatrix}\\ =\begin{pmatrix} u _{1}\lambda _{1} & u _{2}\lambda _{2} & \cdots & u _{p}\lambda _{p} \end{pmatrix}\begin{pmatrix} u_{1}^{T}\\ u_{2}^{T}\\ \vdots \\ u_{p}^{T} \end{pmatrix}=\sum_{i=1}^{p}u_{i}\lambda _{i}u_{i}^{T}\\ \end{array}$
$\Sigma ^{-1}$ 则为：
$\Sigma ^{-1}=(U\Lambda U^{T})^{-1}=(U^{T})^{-1}\Lambda ^{-1}U^{-1}=U{\Lambda^{-1}}U^{T}=\sum_{i=1}^{p}u_{i}\frac{1}{\lambda _{i}}u _{i}^{T}$
其中 $\Lambda^{-1}=diag(\frac{1}{\lambda _{i}}),i=1,2,\cdots,p$ 。
将概率密度函数( $\color{red}pdf: probability\;density\;function$ )整理成椭圆方程的形式
$\begin{array}{l}\Delta =(x-\mu )^{T}\Sigma ^{-1}(x-\mu )\\ =(x-\mu )^{T}\sum_{i=1}^{p}u _{i}\frac{1}{\lambda _{i}}u _{i}^{T}(x-\mu )\\ =\sum_{i=1}^{p}(x-\mu )^{T}u _{i}\frac{1}{\lambda _{i}}u _{i}^{T}(x-\mu )\\ \color{blue}(令y_{i}=(x-\mu )^{T}u _{i})\\ =\sum_{i=1}^{p}y_{i}\frac{1}{\lambda _{i}}y_{i}^{T} =\sum_{i=1}^{p}\frac{y_{i}^{2}}{\lambda _{i}} \end{array}$
1. 上式中 $y_{i}=(x-\mu )^{T}u _{i}$ 可以理解为将 $x$ 减去均值进行中心化以后再投影到 $u _{i}$ 方向上，相当于做了一次坐标轴变换。
2. 当 $x$ 的维度为 $2$ 即 $p = 2$ 时 $\Delta =\frac{y_{1}^{2}}{\lambda _{1}}+\frac{y_{2}^{2}}{\lambda _{2}}$ ，得到类似椭圆方程的等式，所以也就可以解释为什么其等高线是椭圆形状。二维高斯分布的图像如下所示：
- 如果是对角矩阵的话，椭圆就是正的椭圆。
- 每当 $\Delta$ 取不同值，椭圆就相当于对这一高度的等高线，也对应一个固定的概率值若 $\lambda_i=c$ (常量)时，上图便是一个圆

1.3 高斯分布的局限性

1.3.1 参数过多

协方差矩阵 $\Sigma _{p\times p}$ 中的参数共有 $1+2+\cdots +p=\frac{p(p+1)}{2}$ 个（ $\Sigma _{p\times p}$ 是对称矩阵），因此当 $x$ 的维度 $p$ 很大时，高斯分布的参数就会有很多，其计算复杂度为 $O(p^{2})$ 。
- 可以通过假设高斯分布的协方差矩阵为 $\color{red}对角矩阵$ 来减少参数，当高斯分布的协方差矩阵为对角矩阵时，特征向量的方向就会和原坐标轴的方向平行，因此高斯分布的等高线（同心椭圆）就不会倾斜。
- 另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其 $\color{red}特征值全部相等$ （即 $\lambda _{1}=\lambda _{2}=\cdots=\lambda _{i}$ ）,则高斯分布的等高线就会成为一个圆形，而且不会倾斜，称为各向同性。

1.3.2 单个高斯分布拟合能力有限

有些数据无法用一个高斯分布表示
因此在GMM中提出了混合模型：使用多个高斯分布进行混合，比如高斯混合模型。

1.4 边缘概率及条件概率

已知：一个多维高斯分布的联合概率 $x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}{(x-\mu)^T\Sigma^{-1}(x-\mu)})$ ，其中 $\in \mathbb R^p$ ,
$x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_p\\ \end{pmatrix},\; \mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p\\ \end{pmatrix},\; \Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\ \end{pmatrix}_{p\times p}$

将 $x$ 分为两部分，一部分为 $a$ 维 $x_a$ ，一部分为 $b$ 维 $x_b$ , $\mu$ 和 $\Sigma$ 同理：
$x=\begin{pmatrix} x_a\\ x_b\\ \end{pmatrix},\;\mu=\begin{pmatrix} \mu_a\\ \mu_b\\ \end{pmatrix},\;\Sigma=\begin{pmatrix} \sigma_{aa}&\sigma_{ab}\\ \sigma_{ba}&\sigma_{bb}\\ \end{pmatrix},\;(a+b=p)$
将 $x$ 看为 $x_a$ 和 $x_b$ 的联合概率分布。
通用方法：配方法（RPML）；今天使用另一种方法，比配方法简便。

求其边缘概率分布及条件概率分布，即：求 $P(x_{a}),P(x_{b}|x_{a}),P(x_{b}),P(x_{a}|x_{b})$ 。

1.4.1 定理

$已知x\sim N(\mu ,\Sigma ),x\in \mathbb{R}^{p}\\ y=Ax+B,y\in \mathbb{R}^{q}\\ 结论：y\sim N(A\mu +B,A\Sigma A^{T})$

简单但不严谨的证明：
$E[y]=E[Ax+B]=AE[x]+B=A\mu +B$ $\begin{array}{l}Var[y]=Var[Ax+B]\\ =Var[Ax]+Var[B]\\ =AVar[x]A^{T}+0 =A\Sigma A^{T}\end{array}$

1.4.2 求边缘概率

求边缘概率 $P(x_{a})$ ，令
$x_a=\underbrace{\begin{pmatrix} I_m&0 \end{pmatrix}}_{A} \underbrace{\begin{pmatrix} x_a\\x_b \end{pmatrix}}_{x}+\underbrace0_{B}$
则：
$E[x_a]=A\mu+B=\begin{pmatrix}I_m&0 \end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b \end{pmatrix}+0 =\mu_a$
$D[x_a]=A\Sigma A^T=\begin{pmatrix}I_m&0 \end{pmatrix} \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}I_m\\0 \end{pmatrix}= \begin{pmatrix}\Sigma_{aa}&\Sigma_{ab} \end{pmatrix}\begin{pmatrix}I_m\\0 \end{pmatrix}=\Sigma_{aa}$
所以 $\color{blue}x_{a}\sim N(\mu _{a},\Sigma _{aa})$ ，同理 $\color{blue}x_{b}\sim N(\mu _{b},\Sigma _{bb})$ 。

1.4.3 求条件概率

求条件概率 $P(x_{b}|x_{a})$

首先构造 $\color{red}\left\{\begin{matrix} x_{b\cdot a}=x_{b}-\Sigma _{ba}\Sigma _{aa}^{-1}x_{a}\\ \mu _{b\cdot a}=\mu_{b}-\Sigma _{ba}\Sigma _{aa}^{-1}\mu_{a}\\ \Sigma _{bb\cdot a}=\Sigma _{bb}-\Sigma _{ba}\Sigma _{aa}^{-1}\Sigma _{ab} \end{matrix}\right.\\ (\Sigma _{bb\cdot a}是\Sigma _{aa}的舒尔补)$

$x_{b\cdot a}$ 是 $x_b$ 与 $x_a$ 的线性组合，故其服从高斯分布。

先对 $x_{b\cdot a}$ 进行变换，使其能够应用上述定理直接得出结果
$x_{b\cdot a}=\underset{A}{\underbrace{\begin{pmatrix}- \Sigma _{ba}\Sigma _{aa}^{-1}& I_{n} \end{pmatrix}}}\underset{x}{\underbrace{\begin{pmatrix} x_{a}\\ x_{b} \end{pmatrix}}}$
- 使用定理得：
  $E[x_{b\cdot a}]=\begin{pmatrix} -\Sigma _{ba}\Sigma _{aa}^{-1}& I_{n} \end{pmatrix}\begin{pmatrix} \mu _{a}\\ \mu _{b} \end{pmatrix}=\mu_{b}-\Sigma _{ba}\Sigma _{aa}^{-1}\mu_{a}=\mu _{b\cdot a}$
  $\begin{array}{l} Var[x_{b\cdot a}] &=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix}\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} \Sigma_{ba}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa} &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} 0 &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}=\Sigma_{bb\cdot a} \end{array}$
  得到 $\color{blue}x_{b\cdot a}\sim N(\mu _{b\cdot a},\Sigma _{bb\cdot a})$ 。
由第一个引入的量可以得到：
$x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
- 此处同样利用上述定理，其中 $\color{red}y为x_b，x为x_{b.a}, A为I , B\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ 。
- 定理： $\color{red}已知x\sim N(\mu ,\Sigma ),x\in \mathbb{R}^{p}\\ y=Ax+B,y\in \mathbb{R}^{q}\\ 结论：y\sim N(A\mu +B,A\Sigma A^{T})$
- 这里 $\color{red}直接使用x_b的表达式计算了x_b|x_a$ ，原因：条件概率的含义为在已知 $x_a$ 的条件下求 $x_b$ 的概率，因此这里假设 $x_a$ 已知，作为常量处理。
$E[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
$D[x_b|x_a]=\Sigma_{bb\cdot a}\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
因此可以得到 $\color{blue}x_{b}|x_{a}\sim N(\mu _{b\cdot a}+\Sigma _{ba}\Sigma _{aa}^{-1}x_{a},\Sigma _{bb\cdot a})$ ，同理可以得到 $\color{blue}x_{a}|x_{b}\sim N(\mu _{a\cdot b}+\Sigma _{ab}\Sigma _{bb}^{-1}x_{b},\Sigma _{aa\cdot b})$ 。

1.5 联合概率分布

已知：
$p(x)=N(x|\mu ,\Lambda ^{-1})\\ p(y|x)=N(y|Ax+b ,L ^{-1})$
- $\Lambda$ 和 $L$ 是精度矩阵（ $precision\,matrix$ ）， $\color{red}precision\,matrix=(covariance\,matrix)^{T}$ 。
- 有点像贝叶斯中的后验 $p(x|y)={p(y|x)*p(x)\over p(y)}$
- 同时有假设 $y$ 与 $x$ 有线性关系： $y = A x + b$
求 $p (y), p (x ∣ y)$ 。
- PRML中依然用的配方法，非常繁琐
- 以下依旧使用构造性证明 ; 本节比上节更重要!!
已知可以确定 $y$ 与 $x$ 的关系为线性高斯模型，则 $y$ 与 $x$ 符合下述关系: $\color{red}y = Ax+b+\epsilon$ 其中 $\epsilon\sim N(0,L^{-1})$
- $x,y,\epsilon$ 都是随机向量（r.v）
- $\epsilon$ 与 $x$ 相互独立

1.5.1 求解 $p (y)$

$E[y]=E[Ax+b+\varepsilon]=E[Ax+b]+E[\varepsilon]=A\mu+b\\ Var[y]=Var[Ax+b+\varepsilon]=Var[Ax+b]+Var[\varepsilon]=A\Lambda ^{-1}A^{T}+L ^{-1}$
则可以得出 $\color{red}y\sim N(A\mu+b,L ^{-1}+A\Lambda ^{-1}A^{T})$

1.5.2 求解 $p (x ∣ y)$

求解 $p (x ∣ y)$ 需要首先求解x与y的联合分布，然后根据上一部分的公式直接得到 $p (x ∣ y)$ 。

联合分布的相关结论：
$x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}{(x-\mu)^T\Sigma^{-1}(x-\mu)})$ ，其中 $\in \mathbb R^p$ $x=\begin{pmatrix} x_{a}\\ x_{b} \end{pmatrix}，其中x_{a}是m维的，x_{b}是n维的。\\ \mu =\begin{pmatrix} \mu_{a}\\ \mu_{b} \end{pmatrix}\Sigma =\begin{pmatrix} \Sigma _{aa}&\Sigma _{ab}\\ \Sigma _{ba}&\Sigma _{bb} \end{pmatrix}$
$\color{blue}x_{a}|x_{b}\sim N(\mu _{a\cdot b}+\Sigma _{ab}\Sigma _{bb}^{-1}x_{b},\Sigma _{aa\cdot b})$

$构造z=\begin{pmatrix} x\\ y \end{pmatrix}$ ,则：
$E[z]=\begin{pmatrix}\mu\\A\mu+b \end{pmatrix}\\ D[z]=\begin{pmatrix} cov(x,x)&cov(x,y)\\ cov(y,x)&cov(y,y) \end{pmatrix} =\begin{pmatrix} \Lambda^{-1}&cov(x,y)\\ cov(y,x)&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix}$
$\begin{array}{l} Cov(x,y)=E[(x-E[x])(y-E[y])^{T}]\\ =E[(x-\mu )(y-A\mu-b)^{T}]\\ =E[(x-\mu )(Ax+b+\varepsilon-A\mu-b)^{T}]\\ =E[(x-\mu )(Ax-A\mu+\varepsilon)^{T}]\\ =E[(x-\mu )(Ax-A\mu)^{T}+(x-\mu)\varepsilon^{T}]\\ =E[(x-\mu )(Ax-A\mu)^{T}]+E[(x-\mu)\varepsilon^{T}]\\ （\color{blue}{因为x与\varepsilon独立，所以(x-\mu)与\varepsilon独立，所以E[(x-\mu)\varepsilon^{T}]=E[(x-\mu)]E[\varepsilon^{T}]})\\ =E[(x-\mu )(Ax-A\mu)^{T}]+E[(x-\mu)]E[\varepsilon^{T}]\\ =E[(x-\mu )(Ax-A\mu)^{T}]+E[(x-\mu)]\cdot 0\\ =E[(x-\mu )(Ax-A\mu)^{T}]\\ =E[(x-\mu )(x-\mu )^{T}A^{T}]\\ =E[(x-\mu )(x-\mu )^{T}]A^{T}\\ =Var[x]A^{T}\\ =\Lambda ^{-1}A^{T}\\ \end{array}$
由对称性得： $cov(y,x)=A\Lambda^{-1}$
由此可得 $\color{red}z\sim N(\begin{pmatrix}\mu\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\ A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix})$
套用上一部分的公式 $x_a|x_b\sim N(\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b,\Sigma_{aa\cdot b})$ 可得到：
$E[x|y]=\mu + \Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)\\ D[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}$
因此
$\color{red}x|y\sim N(\mu + \Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b),\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1})$

1.6 概率-不等式1-杰森不等式（Jensen’s Inequality）

杰森不等式在机器学习的推导中经常被用到，因此单独拿出来介绍

杰森不等式是什么？

假设 $f (x)$ 是 $\color{red}convex \ function$ (凸函数)
则 $\color{red}E[f(x)] \ge f(E[x])$
证明方法有很多，本次采用一个构造性证明

如上图所示，根据 $E [x]$ 点找到 $f (E [x])$ 点，然后做切线 $l (x) = a x + b$
因此 $f (E [x]) = l (E [x]) = a E [x] + b$
$\because f(x) \ is\ convex\\ \therefore \forall x \ f(x)\ge l(x)$
对上式结论两边同时取期望
$\begin{array}{l}E[f(x)]&\ge E[l(x)]\\ &=E[ax+b]\\ &=aE[x]+b\\ &=f(E[x]) \end{array}$
证毕
杰森不等式的变式
实际上我们在机器学习中使用的更多的是杰森不等式的变式，如下推导

如上图所示，令 $\mu \in (0,1)$

则 $c=a+\mu(b-a)=a+\mu b-\mu a=(1-\mu)a+\mu b$

令 $t=1-\mu,t\in(0,1)$

则 $\color{blue}c=ta+(1-t)b$

然后连接 $f (a)$ 与 $f (b)$ 作一条新的线为 $g (x)$

因为 $\ is\ convex$ （凸），所以 $g(c)\ge f(c)$

$\Rightarrow (c-a):(b-c)=t:(1-t)$

因此如上图所示，可利用相似三角形性质求得：

$(g (c) - f (a)) : (f (b) - g (c)) = t : (1 - t)$

因此 $g (c) = t f (a) + (1 - t) f (b)$

所以 $tf(a)+(1-t)f(b)\ge f(c)=f(ta+(1-t)b)$
#end

$\color{red}tf(a)+(1-t)f(b)\ge f(c)=f(ta+(1-t)b)$
此式非常常用，非常重要！

Paul-Huang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习-白板推导系列(二)-数学基础笔记

1.高斯分布假设有 NNN 个样本，每个样本都是 ppp 维向量的数据：XN×p=(x1,x2,⋯ ,xN)T,xi=(xi1,xi2,⋯ ,xip)TX_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T且xi iidN(μ,Σ)x_i\mathop{~}\limits _{iid}
复制链接

扫一扫