PRML读书笔记(三)

最新推荐文章于 2024-08-13 08:54:03 发布

Lehyu

最新推荐文章于 2024-08-13 08:54:03 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习 PRML 线性回归贝叶斯线性回归分析

本文链接：https://blog.csdn.net/lehyu/article/details/53898941

版权

本文是PRML读书笔记的第三部分，主要探讨了线性基函数模型，包括最大似然和最小二乘法、正则化的最小二乘法、贝叶斯线性回归及其预测分布。通过分析不同基函数和正则化方法，揭示了线性回归模型在处理连续目标值预测中的原理和技巧。同时，还介绍了贝叶斯模型比较和证据近似方法，讨论了如何在模型选择中平衡偏差与方差。

摘要由CSDN通过智能技术生成

回归的目标是在给定输入的情况下，预测具有连续性质的目标值。线性回归中的线性是相对于参数而言的。

3.1 线性基函数模型(Linear Basis Function Models)

最简单的线性回归模型是： $y(\mathbb{x},\mathbb{w})=w_0+w_1x_1+\dots+w_Dx_D$ ，很明显这个模型不足以表达复杂的模型，但是我们能够从这个模型中得出线性回归模型的一般形式

y (x, w) = w 0 + \sum j = 1 M w j ϕ j (x) (1)

$\begin{equation} \begin{array}{rcl} y(\mathbb{x},\mathbb{w}) = w_0+\sum_{j=1}^Mw_j\phi_j(\mathbb{x}) \end{array} \end{equation} \tag{1}$

其中 $\phi_j(\mathbb{x})$ 即基函数，该函数可以是任意的函数，一般为非线性函数(为了提高模型的表达能力)； $w_0$ 为偏置，假设我们令 $\phi_0(\mathbb{x})=1$ ，那么上式就可以简化成

y (x, w) = \sum j = 0 M w j ϕ j (x) = w T ϕ (x)

$\begin{equation} \begin{array}{rcl} y(\mathbb{x},\mathbb{w}) = \sum_{j=0}^Mw_j\phi_j(\mathbb{x})=\mathbb{w}^T\boldsymbol{\phi}(\mathbb{x}) \end{array} \end{equation}$

整个模型对于输入是非线性的，而对于参数是线性的，这样就在提高模型表达能力的同时，也简化了模型。但是这种简化也导致了明显的限制，后面会详细介绍。

第一章中的曲线拟合，我们令 $\phi_j(x)=x^j$ ，多项式基函数是输入变量的全局函数，如果一个输入变量的区域改变会影响其他的输入区域，比如 $(2,1,1,1)\to(2,1,1,9)$ ，但是如果采用如高斯基函数等局部函数的话，就不会出现这种情况。

常见的几类基函数:
1. 多项基函数： $\phi_j(x)=x^j$
2. 高斯基函数： $\phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\}$
3. sigmoid： $\phi_j(x)=\sigma\left(\frac{x-\mu_j}{s}\right),\sigma(a)=\frac{1}{1+\exp(-a)}$

basis_function

3.1.1 最大似然和最小二乘法

假设目标值t由判别函数与一个额外的噪声给出: $t=y(\mathbb{x},\mathbb{w})+\epsilon$ ，其中噪声为一个均值为0、精度为 $\beta$ 的高斯噪声。那么

p (t | x, w, β) = N (t | y (x, w), β - 1)

$\begin{equation} \begin{array}{rcl} p(t\vert \mathbb{x},\mathbb{w},\beta)=\mathcal{N}(t\vert y(\mathbb{x},\mathbb{w}),\beta^{-1}) \end{array} \end{equation}$

假设我们令其损失函数为平方损失函数(square loss function)，那么最优预测值就与条件均值一致

E [t | x] = \int t p (t | x) d t = y (x), w))

$\begin{equation} \begin{array}{rcl} E[t\vert \mathbb{x}]=\int{tp(t\vert \mathbb{x})}dt=y(\mathbb{x}),\mathbb{w})) \end{array} \end{equation}$

其中 $p(t\vert \mathbb{x})=p(t\vert \mathbb{x},\mathbb{w},\beta)$ 。需要注意的是高斯噪声假设隐含t在给定x的条件分布是单峰的，这个性质可能对于某些应用不太合适。作为扩展，我们可以采用混合高斯分布。

$\boldsymbol{X}=\{\mathbb{x}_1,\dots,\mathbb{x}_N\}$ ，其对应的值为 $\mathbb{t}=\{t_1,\dots,t_N\}$ ，那么

p (t | X, w, β) = \prod n = 1 N N (t | y (x n, w), β - 1)

$\begin{equation} \begin{array}{rcl} p(\mathbb{t}\vert \boldsymbol{X},\mathbb{w},\beta)=\prod_{n=1}^N\mathcal{N}(t\vert y(\mathbb{x}_n,\mathbb{w}),\beta^{-1}) \end{array} \end{equation}$

为了使公式保持整齐，我们可以将上式写成

p (t | w, β) ln p (t | w, β) E D (w) = = = \prod n = 1 N N (t | w T ϕ (x n), β - 1) N 2 ln β - N 2 ln 2 π - β E D (w) 1 2 \sum n = 1 N {t n - w T ϕ (x n)} 2

$\begin{equation} \begin{array}{rcl} p(\mathbb{t}\vert \mathbb{w},\beta) &=& \prod_{n=1}^N\mathcal{N}(t\vert \mathbb{w}^T\boldsymbol{\phi}(\mathbb{x}_n),\beta^{-1}) \\ \ln p(\mathbb{t}\vert \mathbb{w},\beta) &=& \frac{N}{2}\ln\beta-\frac{N}{2}\ln2\pi-\beta E_D(\mathbb{w}) \\ E_D(\mathbb{w}) &=& \frac{1}{2}\sum_{n=1}^N\left\{t_n-\mathbb{w}^T\boldsymbol{\phi}(\mathbb{x}_n)\right\}^2 \end{array} \end{equation}$

要使 $p(\mathbb{t}\vert \mathbb{w},\beta)$ 最大，那么

00 \Rightarrow w M L Φ = = = = \partial ln p ( t | w , β ) \partial w \sum n = 1 N {t n - w T ϕ (x n)} ϕ (x n) T (Φ T Φ) - 1 Φ T t ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ϕ 0 (x 1) ϕ 0 (x 2) ⋮ ϕ 0 (x N) \dots \dots ⋱ \dots ϕ M - 1 (x 1) ϕ M - 1 (x 2) ⋮ ϕ M - 1 (x N) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{equation} \begin{array}{rcl} 0 &=& \frac{\partial{\ln p(\mathbb{t}\vert \mathbb{w},\beta)}}{\partial{\mathbb{w}}} \\ 0 &=& \sum_{n=1}^N\left\{t_n-\mathbb{w}^T\boldsymbol{\phi}(\mathbb{x}_n)\right\}\boldsymbol{\phi}(\mathbb{x}_n)^T \\ \Rightarrow \mathbb{w}_{ML} &=& (\boldsymbol{\Phi}^T\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^T\mathbb{t} \\ \\ \boldsymbol{\Phi} &=& \begin{bmatrix} \phi_0(\mathbb{x}_1) & \cdots & \phi_{M-1}(\mathbb{x}_1) \\ \phi_0(\mathbb{x}_2) & \cdots & \phi_{M-1}(\mathbb{x}_2) \\ \vdots & \ddots & \vdots \\ \phi_0(\mathbb{x}_N) & \cdots & \phi_{M-1}(\mathbb{x}_N) \\ \end{bmatrix} \end{array} \end{equation}$

如果我们将偏置参数 $w_0$ 提出来，那么

E D (w) \Rightarrow w 0 = = 1 2 \sum n = 1 N ⎧ ⎩ ⎨ t n - w 0 - \sum j = 1 M - 1 w j ϕ j (x n) ⎫ ⎭ ⎬ 2 1 N \sum n = 1 N t n - \sum j = 1 M - 1 w j {1 N \sum n = 1 N ϕ j (x n)}

$\begin{equation} \begin{array}{rcl} E_D(\mathbb{w}) &=& \frac{1}{2}\sum_{n=1}^N\left\{t_n-w_0-\sum_{j=1}^{M-1}w_j\phi_j(\mathbb{x}_n)\right\}^2 \\ \Rightarrow w_0 &=& \frac{1}{N}\sum_{n=1}^Nt_n-\sum_{j=1}^{M-1}w_j\left\{\frac{1}{N}\sum_{n=1}^N\phi_j(\mathbb{x}_n)\right\} \end{array} \end{equation}$

由上面公式我们可以看出，偏置参数 $w_0$ 补偿平均目标值与基函数加权平均值的差异。

1 β M L = 1 N \sum n = 1 N {t n - w T M L ϕ (x n)} 2

$\begin{equation} \begin{array}{rcl} \frac{1}{\beta_{ML}} &=& \frac{1}{N}\sum_{n=1}^N\left\{t_n-\mathbb{w}_{ML}^T\boldsymbol{\phi}(\mathbb{x}_n)\right\}^2 \\ \end{array} \end{equation}$

我们可以得到预测值与噪声的精度无关，但噪声的精度可以作为衡量预测值与目标值差异的一个标准。