【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】多项式回归

Don＇t move

已于 2024-06-09 01:04:58 修改

阅读量885

点赞数 11

分类专栏：邱锡鹏-神经网络与深度学习文章标签：机器学习

于 2024-05-11 02:44:26 首次发布

本文链接：https://blog.csdn.net/qq_48520962/article/details/138690671

版权

邱锡鹏-神经网络与深度学习专栏收录该内容

22 篇文章 4 订阅

订阅专栏

多项式回归是机器学习中较为复杂的一类回归问题，例如下图表示的是一种曲线拟合。
在这里插入图片描述

模型

与之前的线性回归不同的是，曲线拟合来表示 $x, y$ 之间映射关系的是一条曲线函数，在选择模型时要使用非线性函数，如果采用了 $w^Tx+b$ 这种线性函数，毫无疑问会发生欠拟合问题。
要建模这个非线性函数，只需要用一个非线性基函数 $\phi (x)$ 来替代线性函数中的x即可，对于多项式回归，就是选择多项式函数来作为这个基函数。所以，多项式回归的模型可以记作：
$f(x,w)=w^T\phi (x)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M$
$w=\left[\begin{matrix} w_0\\ w_1\\ \vdots\\ w_M \end{matrix}\right], \ \ \ \phi(x)=\left[\begin{matrix} 1\\ x^1\\ \vdots\\ x^M \end{matrix}\right]$

多项式次数的选择

在上式当中， $M$ 表示该函数的最高次幂，在模型中是一个需要手动设定的超参数，用来控制模型的复杂度，如果 $M$ 过大可能会导致过拟合问题， $M$ 太小会导致模型欠拟合。
在这里插入图片描述

下面图片是一个输出为 $(0, 1)$ 的模型 $M$ 取不同值时对应的 $w$ 。可见，当选择的模型很复杂，也就是 $M$ 取值很大时，为了让输出的结果最终落在区间内部，函数的高次项系数会很大来平衡整个结果，也就是对应高维度的参数 $w$ 的取值很大，在线性回归中我们说过， $w$ 过大 $x$ 的微小扰动会对最终结果产生很大的影响，这就是当 $M$ 取值过大时会造成过拟合的原因。
在这里插入图片描述

同样的，为了解决 $w$ 过大的问题可以引入正则项构造结构风险：
$\mathcal{R}(w)=\frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-w^T\phi(x^{(n)}))^2+\frac{\lambda}{2}w^Tw$
正则化项为 $\lambda$ ，也是一个超参数。在引入正则项后，上面例子的变化如下所示
在这里插入图片描述

可见当 $\lambda=e^0=1$ 时对 $w$ 的约束最强，当 $\lambda=e^{-\infty}=0$ 时约束最差。这是因为在添加了正则化项后，对于高次项来说，若要让结构风险值最小必须对应的参数也要尽可能小，次数越高，参数越接近于0，这就起到了限制模型能力的作用。

解决过拟合问题除了通过添加正则项外，最简单的方法是增加训练集样本的数量
在这里插入图片描述

这是因为大数定律，当样本数量足够多时，经验风险会近似等于期望风险。

优化

接下来对于曲线拟合的优化过程与线性回归基本一致
首先还是使用平方误差函数作为损失函数来定义经验风险
$\begin{aligned} \mathcal{R}(w) &=\frac{1}{2}\sum_{n=1}^N(y^{(n)}-w^T\phi(x^{(n)}))^2 \\ &=\frac{1}{2}\sum_{n=1}^N(y^{(n)}-w^T \left[\begin{matrix} 1\\ (x^{(n)})^1\\ \vdots\\ (x^{(n)})^M \end{matrix}\right])^2 \\ &=\frac{1}{2}\parallel\left[\begin{matrix} y^{(1)} \\ \vdots \\ y^{(N)} \end{matrix}\right]-(w^T\begin{bmatrix} 1&1&\cdots&1\\ (x^{(1)})^1&(x^{(2)})^1&\cdots&(x^{(N)})^1 \\ \vdots&&&\vdots\\ (x^{(1)})^M&(x^{(2)})^M&\cdots&(x^{(N)})^M \end{bmatrix})^T\parallel^2\\ &令X=\begin{bmatrix}x^{(1)}&x^{(2)}&\cdots&x^{(N)}\end{bmatrix}，则\phi(X)=\begin{bmatrix} 1&1&\cdots&1\\ (x^{(1)})^1&(x^{(2)})^1&\cdots&(x^{(N)})^1 \\ \vdots&&&\vdots\\ (x^{(1)})^M&(x^{(2)})^M&\cdots&(x^{(N)})^M \end{bmatrix}\\ \mathcal{R}(w)&=\frac{1}{2}\parallel y-\phi^T(X)w\parallel^2 \end{aligned}$
下面是ERM过程：
$\begin{aligned} \frac{\partial}{\partial w}\mathcal{R}(w) &=-\frac{1}{2}2\phi(X)(y-\phi^T(X)w)\\ &=-\phi(X)(y-\phi^T(X)w) \end{aligned}$
$\begin{aligned} 令\phi(X)(y-\phi^T(X)w)&=0\\ \phi(X)y-\phi(X)\phi^T(X)w&=0\\ \phi(X)\phi^T(X)w&=\phi(X)y\\ w&=(\phi(X)\phi^T(X))^{-1}\phi(X)y\\ w&=(\phi^T(X))^{-1}y \end{aligned}$
加正则化项同样也是与线性回归计算方法相同，此处省略。