机器学习笔记之贝叶斯线性回归(二)推断任务推导过程

静静的喝酒

已于 2022-12-22 09:44:30 修改

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：贝叶斯线性回归推断任务推导过程

于 2022-11-26 20:24:28 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128054812

版权

机器学习专栏收录该内容

195 篇文章 231 订阅

订阅专栏

机器学习笔记之贝叶斯线性回归——推断任务推导过程

引言
- 回顾：贝叶斯线性回归——推断任务
- 推导过程

引言

上一节对贝叶斯算法在线性回归中的任务进行介绍，本节将介绍贝叶斯线性回归推断任务的推导过程。

回顾：贝叶斯线性回归——推断任务

贝叶斯线性回归中的推断任务(Inference)本质上是求解模型参数 $\mathcal W$ 的后验概率结果 $\mathcal P(\mathcal W \mid Data)$ ：
其中 $D a t a$ 表示数据集合，包含样本集合 $\mathcal X$ 和对应标签集合 $\mathcal Y$ .
$\begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned}$
其中 $\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)$ 是似然(Likelihood)，根据线性回归模型的定义， $\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)$ 服从高斯分布：
各样本之间’独立同分布‘~
$\begin{aligned} \mathcal Y & = \mathcal W^T\mathcal X + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \\ \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & \sim \mathcal N(\mathcal W^T \mathcal X,\sigma^2) \\ & = \prod_{i=1}^N \mathcal N(\mathcal W^Tx^{(i)},\sigma^2) \end{aligned}$
$\mathcal P(\mathcal W)$ 表示先验分布(Piror Distribution)，表示推断前给定的初始分布。这里假设 $\mathcal P(\mathcal W)$ 同样服从高斯分布：
先验分布 $\mathcal P(\mathcal W)$ 的完整表达是 $\mathcal P(\mathcal W \mid \mathcal X)$ ,这里 $\mathcal W$ 和样本 $\mathcal X$ 无关，故省略。
$\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})$
根据指数族分布的共轭性质 以及高斯分布自身的自共轭性质，后验 $\mathcal P(\mathcal W \mid Data)$ 同样服从高斯分布。定义其高斯分布为 $\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})$ ，具体表达如下：
$\begin{aligned} \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) & \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior}) \\ & = \left[\prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)\right] \cdot \mathcal N(0,\Sigma_{prior}) \end{aligned}$

推断任务的目的就是求解 $\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})$ 的分布形式，即求解分布参数 $\mu_{\mathcal W},\Sigma_{\mathcal W}$ 。

推导过程

首先观察似然的概率分布，并进行展开：
需要注意的是: $\mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)(i=1,2,\cdots,N)$ 是一维高斯分布。

$\begin{aligned} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & \sim \prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2) \\ & = \prod_{i=1}^N \frac{1}{\sigma \sqrt{2\pi}} \exp\left[-\frac{1}{2 \sigma^2} \left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2\right] \end{aligned}$
将连乘符号 $\prod$ 代入 $\exp$ 中，并使用矩阵乘法的方式进行描述：
主要是对 $\sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2$ 进行变换，变换结果表示如下：传送门
$\begin{aligned} \sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2 & = \left(y^{(1)} - \mathcal W^Tx^{(1)},\cdots,y^{(N)} - \mathcal W^Tx^{(N)}\right) \begin{pmatrix}y^{(1)} - \mathcal W^Tx^{(1)} \\ \vdots \\ y^{(N)} - \mathcal W^Tx^{(N)}\end{pmatrix} \\ & = (\mathcal Y^T - \mathcal W^T\mathcal X^T)(\mathcal Y - \mathcal X\mathcal W) \\ & = (\mathcal Y - \mathcal X \mathcal W)^T(\mathcal Y -\mathcal X \mathcal W) \end{aligned}$
$\frac{1}{2\sigma^2}$ 和 $i$ 无关，拿到连加号外面, $\mathcal I$ 表示单位矩阵。
$\begin{aligned} & = \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[-\frac{1}{2\sigma^2} \sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2\right] \\ & = \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \end{aligned}$
观察上式，上式同样也是高斯分布的表达格式，这也从侧面证明后验概率 $\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)$ 确实服从高斯分布。上述高斯分布格式可化简为：
中间的项 $\sigma^{-2} \mathcal I$ 表示’精度矩阵‘。需要注意~
$\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal X\mathcal W,\sigma^2 \mathcal I)$
至此，后验分布 $\mathcal P(\mathcal W \mid Data)$ 可表示为：
$\mathcal P(\mathcal W \mid Data) \propto \mathcal N(\mathcal X \mathcal W,\sigma^2 \mathcal I) \cdot \mathcal N(0,\Sigma_{prior})$
言归正传，如何求解 $\mu_{\mathcal W},\Sigma_{\mathcal W}$ ?
对上式进行如下转换：
这里只关心与 $\mathcal W$ 相关的项，其他的项均视作常数。
$\begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \left\{ \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \right\} \cdot \left\{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma_{prior}|^{\frac{1}{2}}}\left[ - \frac{1}{2} \mathcal W^T \Sigma_{prior}^{-1}\mathcal W \right]\right\} \\ & \propto \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \cdot \exp \left[- \frac{1}{2} \mathcal W^T \Sigma_{prior}^{-1}\mathcal W\right] \\ & = \exp \left\{-\frac{1}{2\sigma^2}(\mathcal Y^T - \mathcal W^T\mathcal X^T)(\mathcal Y - \mathcal X\mathcal W) - \frac{1}{2} \mathcal W^T\Sigma_{prior}^{-1} \mathcal W\right\} \end{aligned}$
思路：使用配方法，将上式化简为 $\frac{1}{2}(\mathcal W - \mu_{\mathcal W})^T\Sigma_{\mathcal W}^{-1}(\mathcal W - \mu_{\mathcal W})$ 的格式，从而求出 $\mu_{\mathcal W},\Sigma_{\mathcal W}^{-1}$ 。
我们先对 $\frac{1}{2}(\mathcal W - \mu_{\mathcal W})^T\Sigma_{\mathcal W}^{-1}(\mathcal W - \mu_{\mathcal W})$ 进行展开：用 $\Delta$ 表示。
这里的 $\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W$ 和 $\mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W}$ 互为转置并且均表示实数，因而有： $\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W = \mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W}$ .
$\begin{aligned} \Delta & = -\frac{1}{2} \left[\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W - \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W - \mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W} + \mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}\right] \\ & = -\frac{1}{2} \left[\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W - 2 \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W + \mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}\right] \end{aligned}$
其中二次项是 $\frac{1}{2}\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W$ ,一次项是 $\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W$ ,常数项是 $-\frac{1}{2}\mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}$ 。对比这三项去寻找目标结果的相应项。
对上式完全展开：
观察 $\mathcal Y^T\mathcal X\mathcal W$ 和 $\mathcal W^T\mathcal X^T\mathcal Y$ 这两项，它们是互为转置，并且均表示实数。因此有： $\mathcal Y^T\mathcal X\mathcal W = \mathcal W^T\mathcal X^T\mathcal Y$ 。
$\begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \exp \left\{- \frac{1}{2\sigma^2} (\mathcal Y^T\mathcal Y - \mathcal Y^T\mathcal X\mathcal W - \mathcal W^T\mathcal X^T\mathcal Y + \mathcal W^T\mathcal X^T\mathcal X\mathcal W) - \frac{1}{2} \mathcal W^T\Sigma_{piror}^{-1}\mathcal W\right\} \\ & = \exp\left\{- \frac{1}{2\sigma^2} \left(\mathcal Y^T\mathcal Y - 2\mathcal Y^T\mathcal X\mathcal W + \mathcal W^T\mathcal X^T\mathcal X\mathcal W\right)- \frac{1}{2} \mathcal W^T\Sigma_{piror}^{-1}\mathcal W\right\} \end{aligned}$

观察：该式中的二次项有：
$\frac{1}{2\sigma^2} \mathcal W^T\mathcal X^T\mathcal X\mathcal W - \frac{1}{2} \mathcal W^T\Sigma_{prior}^{-1}\mathcal W = - \frac{1}{2} \left[\mathcal W^T \left(\sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right) \mathcal W\right]$
对比一下 $\Delta$ 可以发现： $\Sigma_{\mathcal W}^{-1} = \sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}$ 。
这里令 $\mathcal A = \Sigma_{\mathcal W}^{-1}$ 。
$\begin{cases} -\frac{1}{2}\left[\mathcal W^T \left(\sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right) \mathcal W\right] \\ -\frac{1}{2}\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W \end{cases}$
同理，该式中的一次项只有一项：
$\frac{1}{2\sigma^2} \cdot (-2)\mathcal Y^T\mathcal X\mathcal W = \frac{\mathcal Y^T\mathcal X}{\sigma^2}\mathcal W$
对比一下 $\Delta$ 可以发现： $\mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} = \mu_{\mathcal W}^T \mathcal A = \frac{\mathcal Y^T\mathcal X}{\sigma^2}$
$\begin{cases} \frac{\mathcal Y^T\mathcal X}{\sigma^2}\mathcal W \\ \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W \end{cases}$

此时我们不需要在去观察’常数项部分‘。因为仅需要求解 $\mu_{\mathcal W}$ 和 $\Sigma_{\mathcal W}$ .此时已经得到了两个方程：
$\begin{cases} \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} = \frac{\mathcal Y^T\mathcal X} {\sigma^2} \\ \Sigma_{\mathcal W}^{-1} = \mathcal A \end{cases}$
解这个方程，有：
$\begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W}^{-1} = \mathcal A \end{cases}$

至此， $\mu_{\mathcal W},\Sigma_{\mathcal W}^{-1}$ 均已求解，那么后验概率分布 $\mathcal P(\mathcal W \mid Data)$ 表示为：
$\begin{aligned} \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{\mathcal X^T\mathcal X}{\sigma^2} + \Sigma_{piror}^{-1} \end{cases} \end{aligned}$