机器学习白板推导 shuhuai008

最新推荐文章于 2021-09-30 21:17:39 发布

cztAI

最新推荐文章于 2021-09-30 21:17:39 发布

阅读量924

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/czt_666/article/details/107732768

版权

参考文献

shuhuai008

续篇

文章目录

前言
一、概率基础
二、线性回归
三、线性分类
四、降维
五、SVM
六、核方法
七、指数族分布
八、概率图模型

前言

数据 $\begin{pmatrix} x_{11} &x_{12} & \cdots &x_{1p} \\ x_{21} & x_{22} &\cdots & x_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ x_{N1} &x_{N2} & \cdots &x_{Np} \end{pmatrix}_{N\times P}$ ，P为特征数，N为样本数。

在这片大陆上，有两大学派，一个是频率学派，另一个是统计学派。

频率派认为 $\theta$ 是未知的常量，数据 $X$ 为r.v（random variable，随机变量）， $x\sim p(x \mid \theta)$
如：极大似然估计（Maximum Likelihood Estimation,MLE）
$\theta_{MLE}=\arg \max_{\theta } \log P(x\mid \theta)$

贝叶斯派则认为参数 $\theta$ 为r.v， $\theta \sim p(\theta)$
如：最大后验概率MAP
$P(\theta \mid X)=\frac{P(X\mid \theta)P(\theta)}{P(X)}$
$P(\theta \mid X)$ 为后验posterior， $P(X\mid \theta)$ 为likehood， $p(\theta)$ 为prior， $P(X)=\int_{\theta} P(X\mid \theta)P(\theta)\mathrm{d}\theta$ 。
$\theta_{MAP}=\arg \max_{\theta} P(X\mid \theta)P(\theta)$

贝叶斯估计：
$P(\theta \mid X)=\frac{P(X\mid \theta)P(\theta)}{\int_{\theta} P(X\mid \theta)P(\theta)\mathrm{d}\theta}$
贝叶斯预测： $\tilde{x}$ 预测数据, $\theta$ 为中间变量
$\begin{aligned}P(\tilde{x} \mid X)&=\int_{\theta} P(\tilde{x}, \theta \mid X)P(\theta)\mathrm{d}\theta\\ &=\int_{\theta} P(\tilde{x}\mid \theta )P(\theta \mid X)\mathrm{d}\theta \end{aligned}$

频率派>统计机器学习>优化：

model
loss function
algorithm

贝叶斯派>概率图模型>求积分>MCMC

一、概率基础

1.一维高斯分布

$(x_1,x_2,\dots ,x_N)^{\top}= \begin{pmatrix} x_1^{\top } \\ x_2^{\top } \\ \vdots \\ x_N^{\top } \end{pmatrix}$
$x_i \in \mathbb{R}^{p}$

$\theta \stackrel{\text{i.i.d}}{\sim } \mathcal N(\mu,\Sigma)$
i.i.d.(independent and identically distributed 独立同分布)

令 $p = 1$ , $\theta=(\mu,\sigma^2)$
一维高斯分布：
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp \left \{ -\frac{(x-\mu)^2}{2\sigma^2} \right \}$

极大似然估计
$\theta_{MLE}=\arg \max_{\theta }P(X\mid \theta)$

对数似然：
$\begin{aligned} \log P(X\mid \theta) &=\log \prod_{i=1}^{N} P(x_i\mid \theta)\\ &=\sum_{i=1}^{N}\log P(x_i\mid \theta)\\ &=\sum_{i=1}^{N}\log \frac{1}{\sqrt{2\pi}\sigma}\exp -\frac{(x_i-\mu)^2}{2\sigma^2}\\ &=\sum_{i=1}^{N}\left [ \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma} -\frac{(x_i-\mu)^2}{2\sigma^2} \right ] \end{aligned}$
求解对数似然 $\mu_{MLE}$ :

$\begin{aligned}\mu_{MLE}&=\arg \max_{\mu }\log P(X\mid \theta)\\ &=\arg \max_{\mu } \sum_{i=1}^{N}-\frac{(x_i-\mu)^2}{2\sigma^2}\\ &=\arg \min_{\mu } \sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned}$

对 $\mu_{MLE}$ 求偏导:

$\begin{aligned} \frac{\partial }{\partial \mu}\sum_{i=1}^{N} (x_i-\mu)^2&=\sum_{i=1}^{N}2\cdot (x_i-\mu)\cdot(-1)=0\\ &\Rightarrow \sum_{i=1}^{N}(x_i-\mu)=0\\ &\Rightarrow \mu_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_i \end{aligned}$
对 $\mu_{MLE}$ 求期望：
$E[\mu_{MLE}]=\frac{1}{N}\sum_{i=1}^{N}E[x_i]=\frac{1}{N}\sum_{i=1}^{N}\mu=\mu$
因此 $\mu_{MLE}$ 无偏。

求解对数似然 $\sigma_{MLE}$ :
$\begin{aligned} \mu_{MLE}&=\arg \max_{\sigma }\log P(X\mid \theta)\\ &=\arg \max_{\sigma }\sum_{i=1}^{N}-\log \sigma -\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned}$
对数似然 $\sigma_{MLE}$ 偏导:

令 $L(\sigma)=-\log \sigma -\frac{(x_i-\mu)^2}{2\sigma^2}$
$\begin{aligned} \frac{\partial L}{\partial \sigma}&=\sum_{i=1}^{N}[-\frac{1}{\sigma}+\frac{1}{2}(x_i-\mu)^2\cdot (-2)\cdot \sigma^{-3}]\\ &=\sum_{i=1}^{N}[-\sigma^2+(x_i-\mu)^2]=0\\ &\Rightarrow \sum_{i=1}^{N}\sigma^2=\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned}$
$\sigma_{MLE}^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2-\mu_{MLE}^2$
$\sigma_{MLE}^2$ 求期望:
$\begin{aligned} E[\sigma_{MLE}^2]&=E[\frac{1}{N}\sum_{i=1}^{N}x_i^2-\mu_{MLE}^2]\\ &=E[\frac{1}{N}\sum_{i=1}^{N}(x_i^2-\mu^2)-(\mu_{MLE}^2-\mu^2)]\\ &=E[\frac{1}{N}\sum_{i=1}^{N}(x_i^2-\mu^2)]-E[\mu_{MLE}^2-\mu^2]\\ &=\frac{1}{N}\sum_{i=1}^{N}E[x_i^2-\mu^2]-(E[\mu_{MLE}^2]-E[\mu^2])\\ &=\frac{1}{N}\sum_{i=1}^{N}(E[x_i^2]-\mu^2)-(E[\mu_{MLE}^2]-\mu^2)\\ &=\frac{1}{N}\sum_{i=1}^{N}Var(x_i)-E[\mu_{MLE}^2-E^2[\mu_{MLE}]\\ &=\frac{1}{N}\sum_{i=1}^{N}Var(x_i)-Var(\mu_{MLE})\\ &=\sigma^2-\frac{1}{N}\sigma^2 \end{aligned}$
其中 $Var(\mu_{MLE})=Var(\frac{1}{N}\sum_{i=1}^{N}x_i)=\frac{1}{N^2}\sum_{i=1}^{N}Var(x_i)=\frac{1}{N^2}\sum_{i=1}^{N}\sigma^2=\frac{1}{N}\sigma^2$

因此 $\sigma_{MLE}=\frac{N-1}{N}\sigma^2$ 是有偏估计。

极大似然估计
$\mu_{MLE}\to E[\mu_{MLE}]\\ \sigma_{MLE}^2 \to E[\sigma_{MLE}^2]$

2.高维高斯分布

$p(x)=\frac{1}{(2\pi)^{p/2}\left| \Sigma\right|^{1/2}} \exp( -\frac{1}{2} (x-\mu)^{\top}\Sigma^{-1}(x-\mu))$

$x\in \mathbb{R}^{p}$ ，r.v
$x=\begin{pmatrix}x_1 \\x_2 \\\vdots \\x_p\end{pmatrix}, \mu=\begin{pmatrix}\mu_1 \\\mu_2 \\\vdots \\\mu_p\end{pmatrix}, \Sigma= \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots &\sigma_{1p} \\ \sigma_{21} & \sigma_{22} &\cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots &\sigma_{pp} \end{pmatrix}_{p\times p},\Sigma$ 需要为正定矩阵，不过一般都是半正定矩阵。

$(x-\mu)^{\top}\Sigma^{-1}(x-\mu)$ 表示 $x$ 与 $\mu$ 的马氏距离

当 $\Sigma=1$ 时，为欧式距离

特征分解
$U=(U_1,U_2,\dots,U_p)_{p\times p},i=1,2,\dots,p\\ UU^{\top}=U^{\top}U=I\\ \Lambda =diag(\lambda _i)$
$\begin{aligned} \Sigma &=U\Lambda U^{\top}= \begin{pmatrix}\mu_1 &\mu_2 &\cdots &\mu_p\end{pmatrix}\begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & &\lambda_p \end{pmatrix}\begin{pmatrix}\mu_1^{\top} \\\mu_2^{\top} \\\vdots \\\mu_p^{\top}\end{pmatrix}\\ &=\begin{pmatrix}\mu_1\lambda_1 &\mu_2\lambda_2 &\cdots &\mu_p\lambda_p\end{pmatrix}\begin{pmatrix}\mu_1^{\top} \\\mu_2^{\top} \\\vdots \\\mu_p^{\top}\end{pmatrix} =\sum_{i=1}^{p}u_i\lambda_iu_i^{\top} \end{aligned}$
$\Sigma^{-1}=(U\Lambda U^{\top})^{-1}=(U^{\top})^{-1}\Lambda^{-1} U^{-1}=U\Lambda^{-1} U^{\top}=\sum_{i=1}^{p}u_i\frac{1}{\lambda_i}u_i^{\top}$
$\begin{aligned}(x-\mu)^{\top}\Sigma^{-1}(x-\mu) &=(x-\mu)^{\top}\sum_{i=1}^{p}u_i\frac{1}{\lambda_i}u_i^{\top}(x-\mu)\\ &=\sum_{i=1}^{p}(x-\mu)^{\top}u_i\frac{1}{\lambda_i}u_i^{\top}(x-\mu)\\ &=\sum_{i=1}^{p}y_i\frac{1}{\lambda_i}y_i^{\top}=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i}\end{aligned}$
当 $p = 2$ 时， $\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}$ 是一个椭圆，表示数据 $x$ 的聚集为椭圆，由数据 $x$ 的坐标变换到 $y$ 坐标，数据的主方向和 $y$ 坐标相同。
$\lambda_1=\lambda_2$ 时，数据聚集为圆，各向同性（无新坐标）。

$\to \Sigma \to \Sigma^{-1} \to (x-\mu)^{\top}\Sigma^{-1}(x-\mu)=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i}$

3.局限性

参数多
各向同性
多类别数据无法表示

4.边缘概率&条件概率

$p(x)=\frac{1}{(2\pi)^{p/2}\left| \Sigma\right|^{1/2}} \exp( -\frac{1}{2} (x-\mu)^{\top}\Sigma^{-1}(x-\mu))$
$x\in \mathbb{R}^{p}$ ，r.v
$x=\begin{pmatrix}x_1 \\x_2 \\\vdots \\x_p\end{pmatrix}, \mu=\begin{pmatrix}\mu_1 \\\mu_2 \\\vdots \\\mu_p\end{pmatrix}, \Sigma= \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots &\sigma_{1p} \\ \sigma_{21} & \sigma_{22} &\cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots &\sigma_{pp} \end{pmatrix}_{p\times p}$

已知 $x=\begin{pmatrix}x_a\\x_b\end{pmatrix}, \mu=\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}, \Sigma=\begin{pmatrix}\Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} &\Sigma_{bb}\end{pmatrix},x_a:m维,x_b:n维，m+n=p$

求：
$p(x_a),p(x_b\mid x_a)$
$p(x_b),p(x_a\mid x_b)$

定理：
$已知x\sim\mathcal N(\mu,\Sigma),y=Ax+B$
结论：
$y\sim\mathcal N(A\mu+B,A\Sigma A^{\top})\\ E[y]=E[Ax+B]=AE[x]+B=A\mu+B\\ \begin{aligned} Var[y] &=Var[Ax+B]=Var[Ax]+Var[B]\\ &=AVar[x]A^{\top}=A\Sigma A^{\top} \end{aligned}$

求： $p(x_a)$

$x_a= \begin{pmatrix}I_m & 0\end{pmatrix} \begin{pmatrix}x_a\\x_b\end{pmatrix}$
$E[x_a]=\begin{pmatrix}I_m & 0\end{pmatrix} \begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a$
$Var[x_a]=\begin{pmatrix}I_m & 0\end{pmatrix} \begin{pmatrix}\Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} &\Sigma_{bb}\end{pmatrix} \begin{pmatrix}I_m \\ 0\end{pmatrix}=\Sigma_{aa}$
$\therefore x_a \sim \mathcal N(\mu_a,\Sigma_{aa})$

求： $p(x_{b\cdot a})$
令 $\begin{aligned} \begin{cases} x_{b\cdot a } &=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu _{b\cdot a } &=\mu _b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu _a \\ \Sigma_{bb\cdot a } &=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{cases}\end{aligned}$
$x_{b\cdot a}= \begin{pmatrix} \Sigma_{ba}\Sigma_{aa} & I_n \end{pmatrix} \begin{pmatrix} x_a\\ x_b \end{pmatrix}=Ax$
$\begin{aligned}E[x_{b\cdot a}]&= \begin{pmatrix} \Sigma_{ba}\Sigma_{aa} ^{-1}& I_n \end{pmatrix} \begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}\\ &=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a =\mu_{b\cdot a}=A\mu+B \end{aligned}$
$\begin{aligned} Var[x_{b\cdot a}] &=\begin{pmatrix} \Sigma_{ba}\Sigma_{aa} ^{-1}& I_n \end{pmatrix} \begin{pmatrix}\Sigma_{aa} & \Sigma_{ab}\\ \Sigma_{ba} &\Sigma_{bb}\end{pmatrix} \begin{pmatrix} \Sigma_{ba}\Sigma_{aa} ^{-1}\\ I_n \end{pmatrix}\\ &=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa} ^{-1}\Sigma_{ab} \\&=\Sigma_{bb\cdot a}=A\Sigma A^{\top} \end{aligned}$
$\therefore x_{b\cdot a} \sim \mathcal N(\mu_{b\cdot a},\Sigma_{bb\cdot a})$

求： $p(x_b\mid x_a)$
$\begin{aligned} x_b &=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa} ^{-1}x_a \\&=Ax+B \end{aligned}$
$\begin{aligned} E[x_b\mid x_a]&=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa} ^{-1}x_a\\ &=A\mu+B \end{aligned}$
$\begin{aligned} Var[x_b\mid x_a] &=Var[x_{b\cdot a}]\\ &=A\Sigma A^{\top}=\Sigma \end{aligned}$
$$

$\to \left.\begin{matrix} y=Ax+B\end{matrix}\right\}\to \left\{\begin{matrix} E[y] \\Var[y] \end{matrix}\right. \to y \sim \mathcal N(E[y],Var[y])$

$\begin{aligned} \left.\begin{matrix} \binom{x_a}{x_b} \to x_a \end{matrix}\right\}\to &\left\{\begin{matrix} E[x_a] \\ Var[x_a] \end{matrix}\right. \to x_a \sim \mathcal N(E[x_a],Var[x_a])\\ \left.\begin{matrix} x_{b \cdot a} \end{matrix}\right\}\to &\left\{\begin{matrix} E[x_{b \cdot a}] \\ Var[x_{b \cdot a}] \end{matrix}\right. \to x_{b \cdot a} \sim \mathcal N(E[x_{b \cdot a}],Var[x_{b \cdot a}])\\ \left.\begin{matrix} x_b \mid x_a \end{matrix}\right\}\to &\left\{\begin{matrix} E[x_b \mid x_a] \\ Var[x_b \mid x_a] \end{matrix}\right. \to x_b \mid x_a \sim \mathcal N(E[x_b \mid x_a],Var[x_b \mid x_a]) \end{aligned}$

5.联合概率

已知
$\sim \mathcal N(x\mid \mu,\Lambda^{-1})\\ p(y\mid x) \sim \mathcal N(y\mid Ax+B,\Lambda^{-1})$
求
$p(y),p(x\mid y)$

$y=Ax+b+\varepsilon\\ x,y,\varepsilon \sim r.v\\ \varepsilon \sim \mathcal N(0,L^{-1})$

$\begin{aligned} E[y]&=E[Ax+b+\varepsilon]\\ &=E[Ax+b]+E[\varepsilon]\\ &=A\mu +b \end{aligned}$
$\begin{aligned} Var[y] &=Var[Ax+b+\varepsilon]\\ &=Var[Ax+b]+Var[\varepsilon]\\ &=A\Lambda^{-1}A^{\top}+L^{-1} \end{aligned}$
$\therefore y \sim \mathcal N(A\mu +b,A\Lambda^{-1}A^{\top}+L^{-1})$

$z=\begin{pmatrix} x\\y \end{pmatrix} \sim \mathcal N(\begin{bmatrix} \mu \\ A\mu +b \end{bmatrix},\begin{pmatrix} L^{-1} &\Delta \\ \Delta &A\Lambda^{-1}A^{\top}+L^{-1} \end{pmatrix} )$

$\begin{aligned} \Delta&=Cov(x,y)\\ &=E[(x-E[x])(y-E[y])^{\top}]\\ &=E[(x-\mu)(y-A\mu -b)^{\top}]\\ &=E[(x-\mu)(Ax+b+\varepsilon-A\mu -b)^{\top}]\\ &=E[(x-\mu)(Ax+\varepsilon-A\mu )^{\top}]\\ &=E[(x-\mu)(Ax-A\mu )^{\top}]-E[(x-\mu)\varepsilon]\\ &=E[(x-\mu)(x-\mu )^{\top}]A^{\top}\\ &=Var[x]A^{\top}\\ &=\Lambda^{-1}A^{\top} \end{aligned}$

$z=\begin{pmatrix} x\\ y \end{pmatrix}=p(x,y)=\varepsilon \sim \mathcal N(\begin{bmatrix} \mu \\ A\mu +b \end{bmatrix},\begin{pmatrix} L^{-1} &\Lambda^{-1}A^{\top} \\ \Lambda^{-1}A^{\top}\Delta &A\Lambda^{-1}A^{\top}+L^{-1} \end{pmatrix} )$