PRML第三章读书笔记——Linear Models For Regression 几何解释、多重共线性、贝叶斯线性回归、贝叶斯模型比较/模型证据/边缘似然、线性回归证据近似/参数有效数量

最新推荐文章于 2021-04-27 18:24:07 发布

Trade Off

最新推荐文章于 2021-04-27 18:24:07 发布

阅读量595

点赞数

分类专栏： # 读书笔记 PRML 机器学习文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/qq_32071849/article/details/104048701

版权

机器学习同时被 2 个专栏收录

45 篇文章 5 订阅

订阅专栏

读书笔记 PRML

14 篇文章 2 订阅

订阅专栏

（拖了8个多月，我终于又开始读PRML了。从年初到现在，中间被很多其他事情耽搁了，包括读CVMLI、重学线性代数、刷闫令琪老师的CG Games101、读花书，等等……终于轮到PRML了，开心的一批。这回尽量每周读一章，嗯，尽量……）

第3章 Linear Models For Regression

3.1 Linear Basis Function Models
- - P143 线性回归的几何解释
  - P143 多重共线性
3.3 Bayesian Linear Regression
- - P156 贝叶斯线性回归形式化
  - P159 等价核Equivalent kernel
3.4 Bayesian Model Comparison
3.5 The Evidence Approximation
- - P165 线性基函数模型的证据近似
  - P170 参数的有效数量

3.1 Linear Basis Function Models

P143 线性回归的几何解释

记训练集标注为 $\bf t = (t_1, ..., t_N)^T$ ，并构成标注空间 $\mathbb R^N$ ， $\mathcal{S}$ 是能在训练集的标注空间中用广义线性回归张成的超平面

这里线性回归的基可以是带核 $\varphi (X)$ 的，实际上带核的仍然是张成超平面，而不是曲面，超平面的第 $i$ 个基由 $\varphi_i(X)$ 决定， $\varphi_i$ 表示第 $i$ 个特征， $X$ 表示所以的N个数据。
这样线性回归是求了标注空间中训练集所在位置在超平面上的投影，垂直距离即为最小二乘的结果。

P143 多重共线性

之前只知道多重共线性不好，到底哪里不好一直说不清楚。这里把它讲清楚。
多重共线性的灾难在于参数值爆炸。

我们记训练集（经过核变换后）为 $\Phi \in \mathbb{R}^{N \times M}$ ，其中 $M$ 是特征维度。用 $r(\cdot)$ 表示秩， $r(\Phi)<M$ 时，即产生了多重共线性问题，也即特征之间线性相关。注意到 $r(\Phi) = r(\Phi^T \Phi) = r(\Phi \Phi^T)$ ，（注：方法为证明 $\Phi x =0$ 与 $\Phi^T \Phi x= 0$ 同解）。所以如何判断 $r(\Phi)$ 与 $M$ 的关系，只需要计算 $\Phi^T \Phi$ 是否奇异。
实际上，如果 $\Phi^T \Phi$ 接近奇异，即行列式很小，那么线性回归的参数闭式解 $(\Phi^T \Phi)^{-1} \Phi^T \bf t$ 会非常大。
从几何角度解释，即两个基向量方向非常近，那么为了表达出与这两个基向量几乎垂直的方向上的位置，这两个向量需要不断抵消，系数会增长非常快！

3.3 Bayesian Linear Regression

参考博客频率学派 vs 贝叶斯学派

P156 贝叶斯线性回归形式化

贝叶斯回归中，不断加样本，精确度矩阵的正定性会越强。
$\begin{aligned} p( \textbf t| \textbf X, \textbf w,\beta) &=\prod_{n=1}^N \mathcal (t_n| \textbf w^T\phi(\textbf x_n), \beta^{-1}) \\ p( \textbf w) &=\mathcal N( \textbf w|\textbf m_0, \textbf S_0) \end{aligned}$
可以得到参数后验分布
$\begin{aligned} p(\textbf w| \textbf t) &=\mathcal N (\textbf w|\textbf m_N,\textbf S_N) \\ \textbf m_N&=\textbf S_N(\textbf S_0^{-1} \textbf m_0+\beta {\Phi}^T \textbf t) \\ \textbf S_N^{-1} &=\textbf S_0^{-1}+ \beta \Phi^T\Phi \end{aligned}$
常取 $\textbf m_0 = 0$ ， $\textbf S_0=\alpha ^{-1}\textbf I$ ，所以
$\begin{aligned} \textbf m_N &=\beta \textbf S_N \Phi^T \textbf t \\ \textbf S_N^{-1} &=\alpha \textbf I + \beta \Phi ^T \Phi \end{aligned}$ .
$\Phi=[\phi(x_0)^T; \phi(x_1)^T;\cdots;\phi(x_{N-1})^T]$ ，进而
$\begin{aligned} p(t_{test}|\textbf x,\textbf t, \textbf X, \alpha, \beta) &=\mathcal N (t_{test}|\textbf m_N^T\phi(\textbf x), \sigma^2_N(\textbf x)) \\ \sigma^2_N(\textbf x) &=\frac{1}{\beta} + \phi(\textbf x)^T\textbf S_N \phi(\textbf x) \end{aligned}$

$\sigma_{N+1}^2\leqslant \sigma_N^2$
当 $N\rightarrow\infty$ 时，上式第二项趋近于0.

P159 等价核Equivalent kernel

预测均值为
$\begin{aligned} y(\textbf x, \textbf m_N)= \textbf m_N^T\phi(x) = \beta\phi(\textbf x) ^T \textbf S_N {\Phi}^T \textbf t = \sum_{n=1}^N \beta \phi(x)^T \textbf S_N \phi(x_n)t_n= \sum_{n=1}^N k(\textbf x, \textbf x_n)t_n \end{aligned}$
其中
$x')=\beta \phi(x)^T \textbf S_N\phi(x')$
称为平滑矩阵smoother matrix或等价核

对于数据集，可以证明（严谨的证明待补，自己整了一遍，能证出来），有
$\sum_{n=1}^N k(\textbf x,\textbf x_n)=1$
（这里需要数据点的个数 $N$ 多于独立的基函数；还要一个基函数是常数，对应偏置项，例如 $\phi_0(\textbf x)=1$ ）
另外，等价核可以分解成
$k(\textbf x,\textbf z)=\psi(\textbf x)^T \psi (\textbf z)$
其中 $\psi(\textbf x)=\beta^{1/2}\textbf S_N^{1/2} \phi(\textbf x)$
在这里插入图片描述

3.4 Bayesian Model Comparison

贝叶斯方法防止过拟合的原因在于平滑。而贝叶斯模型比较的方法则也是不需要测试集的，评估的是模型的后验分布
假设有一堆模型 $\{\mathcal M_i | i=1, ..., L\}$ ，则
$p(\mathcal M_i|\mathcal D) \propto p(\mathcal M_i) p(\mathcal D |\mathcal M_i)$
如果假设所有模型的 $p(\mathcal M_i)$ 相等，则直接比较模型证据model evidence（也叫边缘似然marginal likelihood） $p(\mathcal D|\mathcal M_i)$ 。两个模型的后验之比 $p(\mathcal D|\mathcal M_i)/p(\mathcal D|\mathcal M_j)$ 叫做贝叶斯因子（Bayes factor）

一旦知道了模型关于数据的后验，数据预测方法为
$p(t|\textbf x, \mathcal D)=\sum_{i=1}^L p(t|\textbf x, \mathcal M_i, \mathcal D)p(\mathcal M_i |\mathcal D)$
这是混合分布mixture distribution的一个例子。其简单近似是选其中最可能的模型做预测，这叫做模型选择model selection

模型证据可以写成
$p(\mathcal D|\mathcal M_i)=\int p(\mathcal D|\theta, \mathcal M_i)p(\theta|\mathcal M_i)d\theta$
注意模型证据实际上是参数后验估计的分母归一化项
$p(\theta|\mathcal D,\mathcal M_i)=\frac{p(\mathcal D|\theta, \mathcal M_i)p(\theta|\mathcal M_i)}{p(\mathcal D|\mathcal M_i)}$

对于越复杂的模型， $\theta$ 维度越高， $p(\mathcal D|\theta, \mathcal M_i)$ 能取得越高，但是对应高概率的 $\theta$ 区域 $\theta p(\theta|\mathcal M_i) \Delta \theta$ 会越低，所以这里有一个trade-off
贝叶斯模型比较倾向于选择正确的模型，假设模型 $\mathcal M_1$ 是数据集 $\mathcal D$ 的真实模型， $\mathcal M_2$ 是另一个模型，则数据集 $\mathcal D$ 的分布服从 $p(\mathcal D|\mathcal M_1)$ ，在某种采样下会出现 $p(\mathcal D| \mathcal M_1)$ 小于 $p(\mathcal D|\mathcal M_2)$ 的情况，但是在期望贝叶斯因子来看，则一定会选出 $\mathcal M_1$
$\int p(\mathcal D|\mathcal M_1)\ln \frac{p(\mathcal D|\mathcal M_1)}{p(\mathcal D|\mathcal M_2)}d\mathcal D$
注意上式是KL散度的形式，恒为正。实际上如果不用对数贝叶斯因子，直接比较贝叶斯因子也能证，即 $\int p(\mathcal D|\mathcal M_1) \frac{p(\mathcal D|\mathcal M_1)}{p(\mathcal D|\mathcal M_2)}d\mathcal D\geqslant 1$
贝叶斯比较方法虽好，但需要对模型的形式作出假设（应是对 $\theta$ 的先验分布做出假设），如果假设出问题，那就会出错。此外，如果参数的先验分布是反常的（例如方差趋于无穷大的高斯分布），那么模型证据会趋近于0，但也可以通过先考虑证据比值，即贝叶斯因子，取极限，得到有意义的答案。而在实际应用中，则直接用一个测试集，进行评估。（不得不说，这是一种妥协）

3.5 The Evidence Approximation

P165 线性基函数模型的证据近似

对于线性回归问题中的超参数 $\alpha, \beta$ ，可以用经验贝叶斯empirical Bayes（也叫第2类最大似然type 2maximum likelihood，推广的最大似然generalized maximum likelihood）的方法进行固定值优化
$p(\textbf t|\alpha, \beta)=\int p(\textbf t|\textbf w, \beta)p(\textbf w|\alpha)d\textbf w$
这里 $\textbf t$ 是label，省略了feature $X$ .
化简后得到（配平方或者带入线性高斯模型）
$\ln p(\textbf t|\alpha, \beta)=\frac{M}{2}\ln \alpha + \frac{N}{2}\ln \beta -E(\textbf m_N)-\frac{1}{2}\ln |\textbf A| - \frac{N}{2}\ln(2\pi)$
其中
$\begin{aligned} E( \textbf m_N) &=\frac{\beta}{2}\|\textbf t - \Phi \textbf m_N\|^2 + \frac{\alpha}{2}\textbf m_N^T \textbf m_N \\ A &=\alpha I+\beta \Phi^T\Phi \\ \textbf m_N &= \beta \textbf S_N \Phi \textbf t = \beta \textbf A^{-1} \Phi^T \textbf t \end{aligned}$

凑巧的是 $A=\nabla^2E$ ，是E的Hessian矩阵
由此可以做实验观察 $M$ 的阶数与模型证据的关系
考虑优化 $\alpha$ 和 $\beta$ ，记特征值分解： $(\beta \Phi^T \Phi) \textbf u_i=\lambda_i \textbf u_i$ ，则 $\textbf A$ 的特征值为 $\alpha +\lambda_i$ . 所以有
$\frac{d}{d\alpha}\ln |\textbf A| = \frac{d}{d\alpha} \ln \prod_i (\lambda_i + \alpha)=\sum_i \frac{1}{\lambda_i + \alpha}$
所以极值点方程为（这我怎么觉得不对啊，尤其中间 $\frac{1}{2}\textbf m_N^T \textbf m_N$ 那一项）
$\frac {\partial \ln p(\textbf t|\alpha, \beta)}{\partial \alpha} =\frac{M}{2\alpha}-\frac{1}{2}\textbf m_N^T \textbf m_N -\frac{1}{2}\sum_i \frac{1}{\lambda_i+\alpha} = 0$
即
$\alpha \textbf m_N ^T \textbf m_N = M-\alpha \sum_i \frac{1}{\lambda_i +\alpha} = \gamma$
其中记 $\gamma = \sum_i \frac{\lambda_i}{\alpha + \lambda_i}$
得
$\alpha = \frac{\gamma}{\textbf m_N^T\textbf m_ N}$
注意右侧也和 $\alpha$ 有关，是一个隐方程
对 $\alpha$ 优化方法为迭代方式：由 $\alpha$ 的初始值，找 $\textbf m_N$ ，再计算 $\gamma$ ，再估计 $\alpha$ ，如此迭代。
对于 $\beta$ ，注意到 $d\lambda_i /d\beta = \lambda_i /\beta$ ，所以
$\frac{d}{d\beta}\ln |\textbf A| = \frac{d}{d\beta}\sum_i \ln (\lambda_i + \alpha)=\frac{1}{\beta} \sum_i \frac{\lambda_i}{\lambda_i + \alpha } = \frac{\gamma}{\beta}$
不动点方程整理后可得（没有验证这个方程）
$\frac{1}{\beta} = \frac{1}{N-\gamma} \sum_{n=1}^N [t_n - \textbf m_N^T \phi(\textbf x_n)]^2$
优化方法同样是 $\beta, \textbf m_N, \gamma$ 迭代进行。当同时优化 $\alpha,\beta$ 时，可以在估计 $\gamma$ 后同时估计

P170 参数的有效数量

上一段的 $\gamma$ 其实衡量了良好确定well determined的参数数量，当 $\frac{\lambda_i}{\alpha +\lambda_i}$ 越接近1，对应 $\textbf m_N$ 的该分量越接近最大似然解；
当 $\frac{\lambda_i}{\alpha +\lambda_i}$ 越接近0，对应 $\textbf m_N$ 的该分量越接近先验 $\textbf m_0$
在这里插入图片描述