ML Note 2.1 - Regularization

最新推荐文章于 2024-04-12 09:38:11 发布

LutingWang

最新推荐文章于 2024-04-12 09:38:11 发布

阅读量127

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/LutingWang/article/details/102824988

版权

ML 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

贝叶斯线性回归
Regularization

在前面的章节中，我们一直使用 frequentist statistics 的视角来进行建模。我们将 $\theta$ 视作一个常数，并假设其值可以使观测数据在理论上出现的概率最大
$\theta = \arg\max_\theta\sum\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}; \theta\right)$

与之对应的另一种视角是 Bayesian 方法。这里我们将 $\theta$ 视为一个随机变量。它具有某种先验分布 $p(\theta)$ 用来反映我们对 $\theta$ 的初始猜测。根据贝叶斯公式，我们可以计算 $\theta$ 的后验分布
$\begin{array}{rcl} p(\theta|S) &=& \frac{p(S|\theta)p(\theta)}{p(S)}\\ &=& \frac{\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)}{\int_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)\right)d\theta} \end{array}$

预测结果以分布的形式给出
$\int_\theta p(y|x,\theta)p(\theta|S)d\theta$

贝叶斯线性回归

设 $\sim N(0, \tau^2I)$ 为参数的先验分布
$\begin{array}{cl} & p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\\ =& \frac{1}{(2\pi)^{n/2}|\tau|}\exp\left(-\frac{w^Tw}{2\tau^2}\right) \prod\limits_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\right) \end{array}$

定义
$\begin{array}{rcl} \Sigma^{-1} &=& \tau^{-2}I + \sigma^{-2}X^TX\\ u &=& \sigma^{-2} \Sigma X^TY \end{array}$

则可以得到¹
$\sim N(u, \Sigma)$

如果将 $\Sigma$ 的定义扩展为
$\Sigma^{-1} = \tau^{-2}I + \sigma^{-2}X^TX + \sigma^{-2}xx^T$

同时定义
$\begin{array}{rcl} p(x) &=& \sigma^2 - x^T\Sigma x\\ q(x) &=& x^T\Sigma X^TY \end{array}$

则预测结果可以表示为
$\sim N\left(\frac{q(x)}{p(x)}, \sigma^4p^{-2}(x)\right)$

Regularization

在一些情况下，上述方法是可行的。但是如果上述推导不能得到解析解，而 $\theta$ 的维度又较高，则一般采用 MAP (maximum a posterior) 来近似预测
$\theta_{\text{MAP}} = \max_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)\right)p(\theta)$

类似 log likelihood 对贝叶斯线性回归的后验概率取对数可得
$\begin{array}{cl} & \ln\left(p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\right)\\ =& -\frac{w^Tw}{2\tau^2} - C - \sum\limits_{i=1}^m\left(\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2} + C_i\right)\\ =& -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m\left(y^{(i)} - w^Tx^{(i)}\right)^2 - \frac{w^Tw}{2\tau^2} + C \end{array}$

其中 $C$ 是与 $w$ 无关得常数。我们在处理线性回归时曾得到
$l(\theta) = -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m(y^{(i)} - h(x^{(i)}))^2 + C$

如果引入 $\lambda = \tau^{-2} / 2$ 则有
$w_{\text{MAP}} = \max_w \left(l(w) - \lambda||w||^2\right)$

对比 MLE 使用的优化目标
$w = \max_w l(w)$

可以看出，贝叶斯估计得到的目标函数后有一个正则项 $\lambda||w||^2$ ，其中 $\lambda$ 称为 regularization parameter. 由于正则项中包含 $w$ 的 $l_2$ 范式，因此又被称为 $l_2$ 正则项。

本例中为了使目标函数达到最大，正则项可以限制 $∣ ∣ w ∣ ∣$ 在一个较小的范围，从而在一定程度上抑制过拟合。考虑到截距项的大小一般是不易变化的，在计算 $l_2$ 范式时我们常常忽略 $w_0$ 而只取
$||w||^2 = \sum\limits_{i = 1}^n w_i^2$

仅关注指数部分
$\begin{array}{cl} & -\frac{w^Tw}{2\tau^2} - \sum\limits_{i = 1}^m \frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\\ =& -\frac{1}{2}w^T\Sigma^{-1}w + \sigma^{-2}Y^TX w - \frac{1}{2\sigma^2} ||Y||^2\\ \end{array}$ 因为 $u^T\Sigma^{-1} = \sigma^{-2}Y^TX$ 所以指数部分可以化为
$-\frac{1}{2}(w - u)^T\Sigma^{-1}(w - u) + \frac{1}{2}u^T\Sigma^{-1}u - \frac{1}{2\sigma^2}||Y||^2$ over. ↩︎

LutingWang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ML Note 2.1 - Regularization

在前面的章节中，我们一直使用 frequentist statistics 的视角来进行建模。我们将 θ\thetaθ 视作一个常数，并假设其值可以使观测数据在理论上出现的概率最大θ=arg⁡max⁡θ∑i=1mp(y(i)∣x(i);θ)\theta = \arg\max_\theta\sum\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}; \theta\righ...
复制链接

扫一扫