机器学习笔记（三）——正则化最小二乘法

最新推荐文章于 2023-09-17 12:21:17 发布

_Kevin_Duan_

最新推荐文章于 2023-09-17 12:21:17 发布

阅读量1.1w

点赞数 6

分类专栏：机器学习文章标签：机器学习最小二乘法

本文链接：https://blog.csdn.net/chunyun0716/article/details/50812416

版权

机器学习专栏收录该内容

30 篇文章 12 订阅

订阅专栏

一. 模型的泛化与过拟合

在上一节中，我们的预测函数为：

f (x; ω) = ω T x

$f(x;\omega) = \omega^Tx$
其中，

x = [x 1], ω = [ω 1 ω 0]

$x=\begin{bmatrix} x\\ 1 \end{bmatrix}, \omega=\begin{bmatrix} \omega_1\\ \omega_0 \end{bmatrix}$
上述称为线性模型，我们也可以将

x $x$ 扩展为：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x n ⋮ x 2 x 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, ω = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ω n ⋮ ω 2 ω 1 ω 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\begin{bmatrix} x^n\\ \vdots\\ x^2\\ x\\ 1 \end{bmatrix}, \omega=\begin{bmatrix} \omega_n\\ \vdots\\ \omega_2\\ \omega_1\\ \omega_0 \end{bmatrix}$
那么预测函数

f(x;w) $f(x;w)$ 就变为一个非线性函数。预测函数的次数越高，越能准确地拟合训练数据。在某些情况下，高次预测函数会拟合大部分或全部训练数据，这时，我们就说这个模型过拟合。因为这种过度拟合训练数据的模型对未知数据的预测就不是那么准确了，它对训练数据外的其它数据是相当敏感的，也就是说它不够泛化。所以我们需要一个最好的模型，也就是说我们需要的模型误差要最小，而且还有一定的泛化能力。

二. 正则化最小二乘法

要避免模型过拟合，我们可以选择部分数据进行模型的训练，也可以利用正则化方法。一般来讲，正则化，有L1正则和L2正则，它们都是基于 $L_p$ 范数的:

L p = (\sum i n | x i | p) 1 p

$L_p=(\sum_i^n\vert x_i\vert ^p)^\frac{1}{p}$
这里我们选择模型的复杂度为L2正则：

∑niω2i $\sum_i^n\omega_i^2$ ,写为向量形式为：

ωTω。 $\omega^T\omega。$ 关于正则化的详细内容，可以参考：
http://blog.csdn.net/heyongluoyao8/article/details/49429629

那么我们新的损失函数可以写为：

L' = L + λ ω T ω = 1 N (ω T X T X ω - 2 ω T X T y + y T y) + λ ω T ω

$\begin{align} L' &= L+\boldsymbol{\lambda\omega^T\omega}\\ &=\frac{1}{N}(\boldsymbol{\omega^TX^TX\omega-2\omega^TX^Ty+y^Ty})+\lambda\boldsymbol{\omega^T\omega} \end{align}$
同样的对上式求偏导数：

\partial L \partial ω = 1 N (2 X T X ω - 2 X T y) + 2 λ ω = 0 \Rightarrow (X T X + N λ I) ω = X T y \Rightarrow ω = (X T X + N λ I) - 1 X T y

$\frac{\partial{L}}{\partial{\boldsymbol{\omega}}}=\frac{1}{N}(2\boldsymbol{X^TX\omega-2X^Ty})+2\lambda\boldsymbol{\omega}=0\\ \Rightarrow\\ (\boldsymbol{X^TX}+N\lambda\boldsymbol{I})\omega=\boldsymbol{X^Ty}\\ \Rightarrow\\ \boldsymbol{\omega}=(\boldsymbol{X^TX}+N\lambda\boldsymbol{I})^{-1}\boldsymbol{X^Ty}$
选择

λ $\lambda$ 的值就是选择多项式拟合函数时，折中过拟合/泛化的过程。值太小，过拟合；值太大，不利于数据的逼近。至于

λ $\lambda$ 的选择，可以采用交叉验证获得最好预测性能的

λ $\lambda$ 。