PRML 阅读笔记（九）<3.1-3.2>

最新推荐文章于 2021-06-01 20:33:55 发布

legend_xiang

最新推荐文章于 2021-06-01 20:33:55 发布

阅读量860

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/legend_xiang/article/details/40485543

版权

machine learning 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

本文介绍了线性回归模型的概念，强调模型的线性是相对于参数而非输入变量。讨论了包括高斯和sigmoid函数在内的basis function，并通过最大似然和最小二乘法解释了参数估计。作者探讨了最小均方误差的几何意义，以及在线性模型中防止过拟合的正则化方法。最后，提出了偏差-方差分解，分析了模型复杂度与欠拟合、过拟合之间的平衡问题。

摘要由CSDN通过智能技术生成

3.Linear Models for Regression

这章一开始作者就说明，"线性"回归指的是模型或预测函数是参数的线性函数，而不一定是输入变量的线性函数。对于模型中输入变量的的函数，可以是非线性函数，称之为basis function。

3.1 Linear Basis Function Models

线性回归模型可以表示如下：

其中w0的basis function被假设为常数1.

在第一章的多项式曲线拟合中，只有一个输入变量x，并且模型中的basis function是，其实basis function的选择是很广泛的，书中介绍了Gaussian baisis function，logistic sigmoidal function等三种basis function。作者下面一段关于傅立叶级数和frequency，spatial的一段话我没理解，希望大牛给我一点提示。

3.1.1 Maximum likelihood and least square

这一小节，作者主要还是对似然函数的前前后后做了一系列描述与讲解。

首先，假设目标变量和预测函数与误差的关系如下：

紧接着，像第一章提到那样，根据中心极限定理等，假设误差服从均值为0，precision为β的高斯分布，进而可以推导出目标变量服从的高斯分布：

对上式取对数形式后，最后一项便是之前提到过的“最小均方”，关于最小均方作者题到了梯度下降。对于“最小均方”中的w求偏导并假设求偏导之后的式子为0，便可以得到所谓的normal equation。书中有normal equation的具体形式，就不过多赘述了。为什么有了normal equation，还要用梯度下降法求参数的解呢？首先遇到不可逆的矩阵，就无法用normal equation求出参数的解，其次当特征维度非常高的时候计算逆矩阵的成本太高。

接下来作者论述了参数w0的含义和precision β的求解。关于w0，作者写到w0是补偿了目标变量均值和weighted sum of the averages of the basis function values之间的差值：

虽然式子是清楚了，但是还是不明白这样的补偿有什么意义？

3.1.2 Geometry of least squares

这一小节，作者对"最小均方"的几何含义做了相应解释。在N维空间中，t(即目标标量的向量组)是N维空间中的一个N维向量，假设模型复杂度M小于样本的总个数N，对于N维向量y，也是一个N维向量，但因为其是M个向量的线性组合，所以被局限在了一个M维的子空间中。"最小均方"的意义就是选取适当的w，使得出的y与t的欧式距离最小，而真正的使"最小均方"为0的y即是t在M维子空间上的投影。

3.1.3 sequential learning

即应用随机梯度下降，使用一个样本点更新所有参数值，适合于实时应用中(详见andrew ng斯坦福公开课)。

3.1.4 Regularized least squares

这一节的大多数内容也在之前遇到过了，即加入了正则项的“最小均方”的相关知识。加入了正则化项以后，除非有数据的支持，否则会使参数取值趋近于0来简化模型，避免过拟合。相对与之前，对于正则化项进行一点小小扩展，有：

当q=2时，即我们之前题到的正则化项。这样就把防止过拟合的任务从basis function的个数选择上转移到了正则化参数λ的选择上了。

3.1.5 Multiple outputs

这一小节主要是讲输出变量t是多维的情况，不做介绍了，只是扩展了一下维度。

3.2 The Bias-Variance Decomposition

在1.5.5节中，通过指定loss 函数L是“最小平方”，再对L的期望进行一点简单的推导，得出了最优y(x)，即使得E[L]最小的y(x)，记为h(x),如下：

在1.5.5中，将h(x)代入“最小平方”L中，可以推导出如下E[L]:

其中第二项来源于数据中的噪声，在样本数据确定以后是不可消减的，也就是E[L]理论上所能取到的最小值了。而第一项，明显是因为我们选择的y(x)和最优y(x)之间的误差引起的，所以接下来的努力方向就是使第一项尽量小。

假设此时我们有多个样本集，大小都为N，且是从分布p(t,x)中独立产生的。在每个数据集上使用最小二乘对参数进行拟合，最后取各个数据集上拟合的结果进行合成。E(y(x;D))是y(x;D)的均值，将其插入“最小平方”中得到：

然后再经过一步不知怎么就消去了交叉项的推导，得到了：

这样，之前的E[L]就变成了如下形式：

我们的目标是最小化expected loss，其中noise是常数，而对于前两项的选取，称为bias and variance trade-off。对于flexible models，因为面对不同D时，y(x;D)的变化会比较大，所以variance比较高，而因为其对于样本的拟合比较好，所以平均后的效果更接近最优y(x),这时的模型存在过拟合风险。相反，对与比较rigid的模型，其面对不同D的时候y(x;D)的变化不大，所以variance就会比较小，而因为对数据的拟合度差一点，bias就会高一点，此时存在欠拟合的风险。所以，最好的y(x)是在bias和variance中找到一个平衡。这是我对这部分内容的一点理解，不对的请大家指出来。

后来作者又画图举了bias和variance平衡关系的例子，以及如何量化的计算bias和variance。

关于这一节，作者在讲bias和variance的时候要谈到多个数据集，而最后又说将数据集合并后进行建模可以有效避免过拟合。为什么讲内容的时候要分开，是因为讲的方便？不分开就不存在E(y(x;D))?还是因为什么原因？希望有大牛能指点一下，感激不尽。