Machine Learning Notes I: The Standard Linear Model

最新推荐文章于 2024-07-24 18:14:54 发布

mmgd

最新推荐文章于 2024-07-24 18:14:54 发布

阅读量287

点赞数

分类专栏： Machine Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/mingge_deng/article/details/50455180

版权

Machine Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

we derive the standard linear model here from Bayesian prospective of view (MAP), with training set $\mathcal{D} = (\bf{X}, \bf{y}) = \{(\bf{x}_i, y_i) | i = 1,..., n\}$ , $\bf{x}$ denotes input vector of dimension $D$ and $y$ denotes a scalar output. $\bf{w}$ the weights vector and $\xi$ Gaussian noise

f (x) = x T w y = f (x) + ξ ξ \sim  (0, σ 2 n)

$f(\bf{x}) = \bf{x}^T \bf{w} \quad \quad y = f(\bf{x})+\xi \quad \quad \xi \sim \mathcal{N}(0, \sigma_n^2)$

The likelihood function

p (y | X, w) = \prod i = 1 n p (y i | x i, w) = \prod i = 1 n 1 2 π ‾ ‾ ‾ \sqrt σ n exp (- y i - x T i w 2 σ 2 n) = 1 ( 2 π σ 2 n ) n / 2 exp (- 1 2 σ 2 n | y - X T w | 2) =  (X T w, σ 2 n I)

$p(\bf{y} | \bf{X}, \bf{w}) = \prod_{i=1}^n p(y_i | \bf{x}_i, \bf{w}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_n}\exp(-\frac{y_i - \bf{x}_i^T\bf{w}}{2\sigma_n^2}) \\ \quad \quad \quad \quad \quad = \frac{1}{(2\pi\sigma_n^2)^{n/2}}\exp(-\frac{1}{2\sigma_n^2}|\bf{y}-\bf{X}^T\bf{w}|^2) = \mathcal{N}(\bf{X}^T\bf{w}, \sigma_n^2\bf{I})$

further specify the prior over the parameter $\bf{w}$ , set as zero mean Gaussian with covariance matrix $\Sigma_p$ , i.e., $\bf{w} \sim \mathcal{N}(0, \Sigma_p)$ , the Bayesian linear model (MAP) is

p (w | y, X) = p ( y | X , w ) p ( w ) p ( y | X ) \propto p (y | X, w) p (w) \propto exp (- 1 2 σ 2 n (y - X w) T (y - X w)) exp (- 1 2 w T Σ - 1 p w) \propto exp (- 1 2 (w - w ¯) T (1 σ 2 n X X T + Σ - 1 p) (w - w ¯))

$p(\bf{w} | \bf{y}, \bf{X}) = \frac{p(\bf{y} | \bf{X}, \bf{w}) p(\bf{w})}{p(\bf{y}|\bf{X})}\propto p(\bf{y} | \bf{X}, \bf{w}) p(\bf{w}) \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \propto \exp(-\frac{1}{2\sigma_n^2}(\bf{y}-\bf{X}\bf{w})^T(\bf{y}-\bf{X}\bf{w}))\exp(-\frac{1}{2}\bf{w}^T\Sigma_p^{-1}\bf{w})\\ \quad \quad \quad \quad \quad \quad \quad \quad \propto \exp(-\frac{1}{2}(\bf{w}-\bar{\bf{w}})^T(\frac{1}{\sigma_n^2}\bf{X}\bf{X}^T+\Sigma_p^{-1})(\bf{w}-\bar{\bf{w}}))$
with

w¯=σ−2n(σ−2nXXT+Σ−1p)−1Xy $\bar{\bf{w}} = \sigma_n^{-2}(\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1}\bf{X}\bf{y}$ , then we have,

p (w | y, X) \sim  (1 σ 2 n (σ - 2 n X X T + Σ - 1 p) - 1 X y, (σ - 2 n X X T + Σ - 1 p) - 1)

$p(\bf{w} | \bf{y}, \bf{X}) \sim \mathcal{N}(\frac{1}{\sigma_n^2}(\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1}\bf{X}\bf{y}, \quad (\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1} )$

make predictions for $\bf{x} = \bf{x}_*$ as

E (f * | x *, X, y) = \int f * (x *, w) p (w | X, y) d w = \int x T * w p (w | X, y) d w = 1 σ 2 n x T * (σ - 2 n X X T + Σ - 1 p) - 1 X y

$E(f_* | \bf{x}_*, \bf{X}, \bf{y}) = \int f_*(\bf{x}_*,\bf{w}) p(\bf{w}|\bf{X}, \bf{y}) d\bf{w} = \int \bf{x}_*^T\bf{w} p(\bf{w}|\bf{X}, \bf{y}) d\bf{w} = \frac{1}{\sigma_n^2}\bf{x}_*^T(\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1}\bf{X}\bf{y}$

in fact, $p(f_* | \bf{x}_*, \bf{X}, \bf{y}) \sim \mathcal{N}(\frac{1}{\sigma_n^2}\bf{x}_*^T(\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1}\bf{X}\bf{y}, \quad \bf{x}_*^T(\sigma_n^{-2}\bf{X}\bf{X}^T+\Sigma_p^{-1})^{-1}\bf{x}_* )$

In a non-Bayesian setting, the prior is usually thought as a penalty term (Ridge Regression, L2 regularization) $\frac{1}{2}\bf{w}^T\Sigma_p^{-1}\bf{w}$

mmgd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning Notes I: The Standard Linear Model

we derive the standard linear model here from Bayesian prospective of view (MAP)
复制链接

扫一扫

专栏目录