机器学习公式推导--Introduction

如果你也听说~

已于 2022-12-19 16:08:23 修改

阅读量210

点赞数

分类专栏：统计学习方法文章标签：算法概率论

于 2022-12-19 16:00:01 首次发布

本文链接：https://blog.csdn.net/qq_43456497/article/details/128373769

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

记录机器学习公式推导的文档，好好学数学哦~
参考视频：https://www.bilibili.com/video/BV1aE411o7qd?p=2&spm_id_from=pageDriver
语雀文档：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/hu0291

Introduction

对概率的诠释有两大学派，一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号：

$X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}$

这个记号表示有 $N$ 个样本，每个样本都是 $p$ 维向量。其中每个观测都是由 $p(x|\theta)$ 生成的。

频率派的观点

$p(x|\theta)$ 中的 $\theta$ 是一个未知常量。对于 $N$ 个观测来说观测集的概率为

$p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta))$

为了求 $\theta$ 的大小，我们采用最大对数似然MLE的方法：

$\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)$

假设每个样本 $x_i$ 都是独立同分布(iid)于 $p(x_i| \theta)$ ,那么有 $\theta) = \prod_{i=1}^N p(x_i| \theta)$ ,对两边取对数连乘就变成连加。

频率派模型演化为统计机器学习，关键是优化问题，如设计模型，loss function，algorithm。

贝叶斯派的观点

贝叶斯派认为 $p(x|\theta)$ 中的 $\theta$ 不是一个常量**。这个 $\theta$ 满足一个预设的分布 $\theta\sim p(\theta)$ ** ，这个预设的分布就是先验，而这个先验是可以通过贝叶斯公式由后验得到。于是根据贝叶斯定理依赖观测集参数的后验可以写成：

$p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}$

为了求 $\theta$ 的值，我们要最大化这个参数后验MAP（最大后验概率估计）：

$\theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)$

其中第二个等号是由于分母和 $\theta$ 没有关系。求解这个 $\theta$ 值后计算

$\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}$
，就得到了参数的后验概率。其中 $p(X|\theta)$ 叫似然，是我们的模型分布。得到了参数的后验分布后，我们可以将这个分布用于预测贝叶斯预测：

$p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta$

其中积分中的被乘数是模型，乘数是后验分布。

贝叶斯模型进而发展为概率图模型，关键就是求积分（比如常用的MCMC，蒙特卡洛方法）。

小结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。

MathBasics

高斯分布

一维情况 MLE

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中：

$\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)$

一般地，高斯分布的概率密度函数写为：

$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$

其中 $\Sigma$ 表示分布的协方差矩阵，在一维的情况其协方差矩阵即为该方差的1X1矩阵。

带入 MLE 中我们考虑一维的情况

$\log p(X|\theta)=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2})$

首先对 $\mu$ 的极值可以得到：

$\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$

于是：
$\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}$

就可以得到 $\mu$ 的估计值。

其次对 $\theta$ 中的另一个参数 $\sigma$ ，有：

$\begin{align} \sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\nonumber\\ &=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}] \end{align}$

于是：

$\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$

值得注意的是，上面的推导中，首先对 $\mu$ 求 MLE，然后利用这个结果求 $\sigma_{MLE}$ ，因此可以预期的是对数据集求期望时 $\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]$ 是无偏差的：

$\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu$

但是当对 $\sigma_{MLE}$ 求期望的时候由于使用了单个数据集的 $\mu_{MLE}$ ,其方差会比真实的方差更小，因此对所有数据集求期望的时候我们会发现 $\sigma_{MLE}$ 是有偏的：

$\begin{align} \mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber \\&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\nonumber\\ &= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}]-\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\nonumber\\&=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\nonumber\\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2} \end{align}$

所以：
$\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$

如果你也听说~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习公式推导--Introduction

记录机器学习公式推导的文档，好好学数学哦~参考视频：https://www.bilibili.com/video/BV1aE411o7qd?语雀文档：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/hu0291。
复制链接

扫一扫