29-贝叶斯线性回归

最新推荐文章于 2024-04-20 00:00:00 发布

取个名字真难呐

最新推荐文章于 2024-04-20 00:00:00 发布

阅读量579

点赞数 1

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/119804502

版权

pytorch 专栏收录该内容

148 篇文章 25 订阅

订阅专栏

文章目录

1.线性回归
2. 贝叶斯方法
3. 综述思路总结

1.线性回归

1.1 背景

这里我们先回顾下我们之前的线性回归相关理论，假设我们有一组数据集合如下：
$D=\{(x_i,x_j)\}_{i=1}^{N},其中 x_i \in\mathbb{R}^p,y_i\in \mathbb{R}\tag{1}$
其中样本X 为 N X P 维矩阵，具体表示如下：
$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag{2}$
$Y=(y_1,y_2,...,y_N)^T= \begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}_{N\times 1}\tag{3}$
线性回归就是需要找到一个函数去拟合所有的样本点，常见的拟合方式有最小二乘法，为了避免过拟合，我们一般通过加正则项来约束方程，使得最后的结果不至于太差。
我们的拟合函数如下：
$f(x)=w^Tx=x^Tw \tag{4}$
对于预测值 y 来说，满足如下：
$f(x)+\varepsilon,\varepsilon \sim(0,\sigma^2)\tag{5}$

注：其中 $x,y,\varepsilon$ 都是随机变量

1.2 思维导图

在这里插入图片描述

为了用一个函数去拟合所有的样本，我们一般都是用最小二乘估计方法 (LSE), 从几何意义出发，得到估计值 W ，从概率视角来看，最小二乘估计就相当于极大似然估计，且噪声为高斯分布。为了解决最小二乘估计的过拟合问题，我们引出了具有正则化的最小二乘估计(Regularized-LSE),根据正则化的项不同可以分为 Lasso回归和 Ridge回归两种方式；从概率角度来看，具有正则化的最小二乘估计(Regularized-LSE)就相当于概率里面的最大后验估计(MAP)，且噪声为高斯分布；
MAP & noise is guassian 公式如下：
$\underbrace{P(w|data)}_{posterior} \propto \underbrace{P(data|w)}_{likelihood}·\underbrace{P(w)}_{Prior}\tag{6}$

MAP for w:
$w_{MAP}=\argmax\limits_{w}P(w|data)=\argmax\limits_{w}P(data|w)·P(w)\tag{7}$
如果先验为高斯分布，那么对应的就是 Ridge 回归
如果先验为 Laplace 分布，那么对应的就是 Lasso 回归

总体来说，对于最小二乘估计(LSE) 和正则化的最小二乘估计 (Regularized-LSE) 均属于点估计，是属于频率派的方法，其中 w 是未知的常数，并且最终转换成一个优化问题,具体公式如下：
$w_{MLE}=\argmax\limits_{w}P(data|w)\tag{8}$
$w_{MAP}=\argmax\limits_{w}P(data|w)·P(w)\tag{9}$

1.3 贝叶斯估计与最小二乘法的区别

以上两种方法为点估计，现在我们引入贝叶斯方法(Bayesian-Method),而贝叶斯方法就不是点估计，而是属于贝叶斯派，那么此时的 w 就是随机变量，此时我们就需要估计出分布 P(w|data)。

2. 贝叶斯方法

2.1 inference 和 prediction

贝叶斯方法(Bayesian-Method)包含两个部分，第一部分为 inference 和 prediction；其中 inference 指的是求关于数据的后验Posterior: $P (w ∣ d a t a)$ ,此时 w 是一个分布，而不是一个常量；其中 Prediction 指的是在给定 $x^*$ 时，我们求解出对应的 $y^*$ .

2.2 inference

我们知道了 inference 指的是求解后验Posterior: $P (w ∣ d a t a)$ ,公式如下：
$P(w|data)=P(w|X,Y)=\frac{P(W,Y|X)}{P(Y|X)}=\frac{P(Y|X,W)·P(W)}{\int_w P(Y|X,W)·P(W)dw}\tag{10}$
我们可以看作 $\int_w P(Y|X,W)·P(W)dw$ 为积分常量，所以可得如下：
$P(w|data)\propto P(Y|X,W)·P(W)\tag{11}$
为了解决上述问题，我们需要求解出 $P (Y ∣ W, X)$ 模型的相关参数,公式如下：
$P(Y|W,X)=\prod_{i=1}^NP(y_i|w_i,x_i)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)\tag{12}$
我们知道 $y=w^Tx+\varepsilon;\varepsilon\sim(0,\sigma^2)$ ,所以可得P(Y|W,X)分布：
$P(y|w,x)\sim N(y_i|w^Tx_i,\sigma^2)\tag{13}$
我们定义先验 P(W)服从高斯分布如下： $P(W)\sim N(0,\Sigma_p)$ ;这是我们任意给的，合理即可；
由高斯共轭性可得，当两个分布为高斯分布时，那么其组合为高斯分布：
$\underbrace{P(W|data)}_{Guassian}\propto \underbrace{P(Y|X,W)}_{Guassian}·\underbrace{P(W)}_{Guassian}\tag{14}$
那么可以得如下：
$P(W|data)\propto P(Y|X,W)·P(W)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)·N(0,\Sigma_p)\tag{15}$
由高斯分布的共轭性可得，P(W|data)一定为高斯分布，假设期望为 $\mu_w$ ,方差为 $\Sigma_w$
$P(W|data)=N(\mu_w,\Sigma_w)\propto\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)·N(0,\Sigma_p)\tag{16}$

2.2.1 求解 P(W|data)的参数

已知 $P(Y|X,W)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)$ ,可得概率密度如下：
$P(Y|X,W)=\prod_{i=1}^N \frac{1}{(2\pi)^{\frac{1}{2}}\sigma}exp\{-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2\}\tag{17}$
$\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}exp\{-\frac{1}{2\sigma^2}\sum_{i=1}^N(y_i-w^Tx_i)^2\}\tag{18}$
转换成矩阵形式如下：
$\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}exp\{-\frac{1}{2}(Y-XW)^T\sigma^{-2}I(Y-XW)\}\tag{19}$
所以可得:
$P(Y|X,W)\sim N(XW,\sigma^{-2}I)$
故可得 $P (W ∣ X, Y)$ 如下：
$P(W|X,Y)\propto N(XW,\sigma^{-2}I)·N(0,\Sigma_p)\tag{20}$
由高斯概率密度函数可得，我们其实只需要关注指数部分的参数即可，得如下：
$N(XW,\sigma^{-2}I)$ 的指数部分
$exp\{-\frac{1}{2}(Y-XW)^T\sigma^{-2}I(Y-XW)\}\tag{21}$
$N(0,\Sigma_p)$ 的指数部分
$exp\{-\frac{1}{2}W^T\Sigma_p^{-1}W\}\tag{22}$
$P (W ∣ X, Y)$ 的指数部分：
$exp\{-\frac{1}{2\sigma^2}(Y^T-W^TX^T)(Y-XW)-\frac{1}{2}W^T\Sigma_p^{-1}W\}$
$exp\{-\frac{1}{2\sigma^2}(Y^TY-Y^TXW-W^TX^TY+W^TX^TXW)-\frac{1}{2}W^T\Sigma_p^{-1}W\}$
因为 $Y^TXW=W^TX^TY$
$exp\{-\frac{1}{2\sigma^2}(Y^TY-2Y^TXW+W^TX^TXW)-\frac{1}{2}W^T\Sigma_p^{-1}W\}\tag{23}$
我们用配方法求解，令 $P(X_w)=N(\mu_w,\Sigma_w)$ ,其对应的概率密度函数指数部分如下：
$exp\{-\frac{1}{2}(X-\mu_w)^T\Sigma^{-1}_w(X-\mu_w)\}\tag{24}$
展开后可得如下：
$exp\{-\frac{1}{2}(\underbrace{X^T\Sigma^{-1}_{w}X}_{Quadratic-form-X}-\underbrace{2\mu_w^T\Sigma^{-1}_wX}_{linearity}+\underbrace{\triangle}_{others})\}\tag{25}$
这样我们就可以通过配方法求解上述参数。
那么我们由公式23可得关于 W 的二次项为如下：
$-\frac{1}{2\sigma^2}W^TX^TXW-\frac{1}{2}W^T\Sigma_p^{-1}W=-\frac{1}{2}[W^T\underbrace{(\sigma^{-2}X^TX+\Sigma^{-1}_p)}_{\Sigma_w^{-1}=A}W]\tag{26}$
关于 W 的一次项为如下：
$-\frac{1}{2\sigma^2}·(-2Y^TXW)=\underbrace{\sigma^{-2}Y^TX}_{\mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX=\mu_w^TA}W\tag{27}$
化简
$A\mu_w=\sigma^{-2}X^TY\tag{28}$
$\mu_w=\sigma^{-2}A^{-1}X^TY\tag{29}$

2.2.2 inference 结论

$P(W|data)=N(\mu_w,\Sigma_w)\tag{30}$
$\mu_w=\sigma^{-2}A^{-1}X^TY\tag{31}$
$\Sigma_w=A^{-1};\quad(tips:A=\sigma^{-2}X^TX+\Sigma^{-1}_p)\tag{32}$

2.3 Prediction

所谓的预测问题(Prediction),就是在已知模型参数W(注：模型通过学习已经做完了inference)的情况下，当客户提供一个 $X^*$ ，我们去预测与之对应的 $Y^*$

2.3.1 模型

$f(x)=W^TX=X^TW\tag{33}$
$y=f(x)+\varepsilon;\quad\varepsilon\sim N(0,\sigma^2)\tag{34}$
现在我们先求解 $f(x^*)$ :
$f(x^*)={x^*}^{T}W\tag{35}$

注：此时的 W 应该对应于后验，即 $W\sim P(W|data)=N(\mu_w,\Sigma_w),x^*对于W来说是常数$
${x^*}^TW\sim N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*})\tag{36}$
可得无噪声时公式如下：
$P(f(x^*)|data,x^*)=N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*})\tag{37}$

2.3.2 Prediction 结论

预测 $y^*,y^*=f(x^*)+\varepsilon$
$P(y^*|data,x^*)=N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*}+\sigma^2)\tag{38}$

3. 综述思路总结

3.1 背景

关于贝叶斯线性回归我们主要了解下其思路，为了方便后续描述，我们定义如下变量：

定义数据 Data:
$D=\{(x_i,x_j)\}_{i=1}^{N},其中 x_i \in\mathbb{R}^p,y_i\in \mathbb{R}\tag{39}$
定义模型Model：
$f(x)=W^TX=X^TW\tag{40}$
$y=f(x)+\varepsilon,\quad \varepsilon\sim(0,\sigma^2)\tag{41}$
贝叶斯方法回归观点：

贝叶斯方法认为参数 W 不是未知的常量，W应该是一个概率分布

3.2 Inference

第一步我们需要做inference 来求解给定数据 data 的关于 W 的分布：

后验Posterior; $N(\mu_w,\Sigma_w)$
$\underbrace{P(W|data)}_{Guassian}\propto \underbrace{likelihood}_{Guassian} \times \underbrace{prior}_{Guassian} \tag{42}$

3.3 Prediction

第二步我们需要在给定的 $x^*$ 的情况下，求解预测 $y^*$ ?
$P(y^*|data,x^*)=\int_wP(y^*|w,data,x^*)·P(w|data,x^*)dw\tag{43}$

注：因为 w 是从 data 里面学习出来的，所以 w 是可以代表数据的，故可简化得：
$P(y^*|w,data,x^*)=P(y^*|w,x^*)\tag{44}$
注：新的数据 $x^*$ 对于 w 来说没有影响，故可简化得：
$P(w|data,x^*)=\underbrace{P(w|data)}_{posterior}\tag{45}$
故综上所述可得：
$P(y^*|data,x^*)=\int_wP(y^*|w,x^*)·P(w|data)dw\tag{46}$
$完结撒花$

取个名字真难呐

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
29-贝叶斯线性回归

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar
复制链接

扫一扫