一文搞懂多元线性回归 | 多项式回归 | 岭回归 | Lasso回归原理推导，L1、L2正则化以及代码实现

编程╱小白╲

已于 2024-05-28 17:11:50 修改

阅读量431

点赞数 6

分类专栏：机器学习文章标签：回归线性回归算法数据挖掘人工智能

于 2024-05-24 17:26:11 首次发布

本文链接：https://blog.csdn.net/qq_44511981/article/details/138029493

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

前言
一、多元线性回归
二、多项式回归
三、Lasso回归
- 1、模型求解
- 正则化的几何解释
四、岭回归
参考

前言

一、多元线性回归

1、问题描述

在多元线性回归中，我们的目标是使用一组输入变量（或特征） $x_1, x_2, ..., x_D$ 来预测一个输出变量 $y$ 。

2、模型建模

对于第 $i$ 条数据，其回归方程可以表示为：

$\begin{equation} y_i = w_0 + w_1 x_{i1} + w_2 x_{i2} + ... +w_D x_{iD} + \epsilon_i \end{equation}$

其中， $w_j$ 是第 $j$ 个回归系数， $\epsilon_i$ 是第 $i$ 个观察的误差项。 $w_0$ 是截距项，也可以看作是当所有输入都为0时的输出。

误差项： 我们假设误差项 $\epsilon_i$ 服从均值为0、方差为 $\beta^{-1}$ 的高斯分布，即
$\begin{equation} \epsilon_i \sim \mathcal{N}(0, \beta^{-1}) \end{equation}$

这个假设意味着我们的模型预测有误差，且这些误差是随机的、独立的，并且遵循正态分布。

基函数： 在多元线性回归中，我们还可以引入基函数 $\phi(x)$ ，以便我们可以对输入进行非线性转换。在这种情况下，我们的模型变为：

$\begin{equation} y_i =w_0 + w_1 \phi_1(x_i) + w_2 \phi_2(x_i) + ... + w_D \phi_D(x_i) + \epsilon_i \end{equation}$

这使我们可以使用线性模型来拟合非线性关系。定义 $\phi_0(x)=1$ ，其可以简单的表示为：
$\begin{equation} y_i = \sum_{j=0}^{D} w_j \phi_j(x_i) + \epsilon_i \end{equation}$

这里我们并不关心基函数是什么，并不影响模型的求解，常见的基函数有：

高斯基函数
$\begin{equation} \phi_j(x) = exp\{-\frac{(x-\mu_j)^2}{2s^2}\} \end{equation}$
Sigmoid 基函数

$\begin{equation} \phi_j(x) = \frac{1}{1 + exp\{-(x-\mu_j)/s\}} \end{equation}$
3. 双曲正切函数,简称 Tanh， $\sigma(2x)-1$
$\begin{equation} \phi(x) = \tanh(x) = \frac{exp\{(x-\mu_j)/s\} - exp\{-(x-\mu_j)/s\}}{exp\{(x-\mu_j)/s\} + exp\{-(x-\mu_j)/s\}} \end{equation}$

3、问题求解

3.1 精确解

已知： $t=y(x,w)+\epsilon$ ， $\epsilon\sim$ 是一个高斯噪声 $\epsilon\sim \mathcal{N}(0, \beta^{-1})$ ，样本 $X=\{x_1,\cdot\cdot\cdot,x_N\}，t=\{t_1,\cdot\cdot\cdot,t_N\}=\{t_n|n=1\cdot\cdot\cdot N\}$

因为 $\epsilon$ 是高斯分布的，所以 $t$ 也会是高斯分布的，因为 $t$ 是由 $y (x, w)$ 和 $\epsilon$ 的和构成的，而 $y (x, w)$ 是确定的，不会引入额外的随机性，即：

$\begin{equation} p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1}) \end{equation}$

当 $\phi_i(x_i)=x_i$ 时， $t$ 在给定的 $x$ 的情况下是服从 $\mathcal{N}(t|y(x,w), \beta^{-1})$
在这里插入图片描述
那么在给定数据集 $X$ 和 $t$ 的情况下,其释然函数为：
$\begin{equation} p(t|X,w,\beta) = \prod\limits^{N}_{n=1}\mathcal{N}(t_n|w^T\phi(x_n), \beta^{-1}) \end{equation}$
使用极大释然估计的方法求参数 $w$ 和 $\beta$ ，那么对释然函数的对数求其最大时的参数 $w$ 和 $\beta$ ，即：

$\begin{equation} \begin{align*} \text{ln}p(t|X,w,\beta) &= \sum\limits^{N}_{n=1}\text{ln}\mathcal{N}(t_n|w^T\phi(x_n), \beta^{-1}) \\ &= -\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln(\beta - \frac{1}{2}\sum\limits_{n=1}^{N}\beta\{t_n - w^T\phi(x_n)\}^2 \end{align*} \end{equation}$

求解w
此时我们发现求参数 $w$ 时即最小化 $E_D(w)=\frac{1}{2}\sum\limits_{n=1}^{N}\{t_n - w^T\phi(x_n)\}^2$ ，其实就等价于最小化MSE均方误差。那么 $\text{ln}p(t|X,w,\beta)$ 对 $w$ 的梯度为：

$\begin{equation} \nabla\text{ln}p(t|X,w,\beta)=\beta\sum\limits_{n=1}^{N}\{t_n - w^T\phi(x)\}\phi(x_n)^T \end{equation}$
令导数等于0
$\begin{equation} \nabla\text{ln}p(t|X,w,\beta)=\beta\sum\limits_{n=1}^{N}\{t_n - w^T\phi(x_n)\}\phi(x_n)^T=0 \end{equation}$
我们可以进行如下推导以求解 $w$ ：

$\begin{equation} \sum_{n=1}^{N} t_n\phi(x_n)^T - \sum_{n=1}^{N} w^T\phi(x_n)\phi(x_n)^T = 0 \end{equation}$

$\begin{equation} \sum_{n=1}^{N} t_n\phi(x_n)^T - w^T\left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T\right) = 0 \end{equation}$

$\begin{equation} w^T\left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T\right) = \sum_{n=1}^{N} t_n\phi(x_n)^T \end{equation}$

$\begin{equation} w = \left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T\right)^{-1} \sum_{n=1}^{N} t_n\phi(x_n) \end{equation}$
我们把它写成矩阵的形式，令 $\Phi=\{\phi(x_1)^T, \phi(x_2)^T,\cdot\cdot\cdot,\phi(x_n)^T\}^T$
$\begin{equation} \Phi = \begin{bmatrix} \phi_0(x_1) & \phi_1(x_1) & \cdots & \phi_D(x_1) \\ \phi_0(x_2) & \phi_1(x_2) & \cdots & \phi_D(x_2) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_0(x_N) & \phi_1(x_N) & \cdots & \phi_D(x_N) \end{bmatrix} \end{equation}$
$\begin{equation} \phi(x_n)^T=\{\phi_0(x_n),\cdots,\phi_D(x_n)\} \end{equation}$
用矩阵的形式表示为：
$\begin{equation} w=(\Phi^T\Phi)^{-1}\Phi^Tt \end{equation}$
其中 $\Phi^{\dagger}=(\Phi^T\Phi)^{-1}\Phi^T$ 为伪逆矩阵
在 $w$ 中 $w_0$ 是截距，我们此时可以将其拿出来讨论
$\begin{equation} E_D(w)=\frac{1}{2}\sum\limits_{n=1}^{N}\{t_n - w_0 - \sum\limits^{D}_{j=1}w_j\phi_j(x_n)\}^2 \end{equation}$
首先，我们对 $w_0$ 求偏导：
$\begin{equation} \frac{\partial E_D(w)}{\partial w_0} = -\sum_{n=1}^{N}\{t_n - w_0 - \sum_{j=1}^{D}w_j\phi_j(x_n)\} \end{equation}$
然后，我们令该偏导数等于0，得到：
$\begin{equation} \sum_{n=1}^{N}\{t_n - w_0 - \sum_{j=1}^{D}w_j\phi_j(x_n)\} = 0 \end{equation}$
接着，我们可以将 $w_0$ 提出来，得到：
$\begin{equation} Nw_0 = \sum_{n=1}^{N}t_n - \sum_{n=1}^{N}\sum_{j=1}^{D}w_j\phi_j(x_n) \end{equation}$
假设我们已经求出了 $w_j$ ， $j = 1, 2, ..., D$ ，那么 $w_0$ 的解为：
$\begin{equation} \begin{align*} w_0 &= \frac{1}{N}\left(\sum_{n=1}^{N}t_n - \sum_{n=1}^{N}\sum_{j=1}^{D}w_j\phi_j(x_n)\right) \\ &=\bar{t} - \sum_{j=1}^{D}w_j\overline{\phi_j} \end{align*} \end{equation}$
从此可以看出 $w_0$ 就是目标值的平均值与训练集上基函数值的加权平均值之差
求解 $\beta$
对 $\beta$ 求导得：
$\begin{equation} -\frac{N}{2\beta} -\frac{1}{2}\sum_{n=1}^{N}\{t_n - w^T\phi(x_n)\}^2 \end{equation}$
令导数等于0，即得到：
$\begin{equation} \beta^{-1} = \frac{\sum_{n=1}^{N}\{t_n - w^T\phi(x_n)\}^2}{N} \end{equation}$
由此可见 $\beta^{-1}$ 即为残差。

3.2 梯度下降法

当 $X$ 的数据量很大时，求 $w$ 的精确解中的 $\Phi^{\dagger}$ 中的逆矩阵的复杂度太高，可能无法求解，使用梯度下降法可以求得 $w$ 的近似解。
$\begin{equation} w_{t+1} = w_{t}-\eta\nabla E_n \end{equation}$
$\begin{equation} \nabla E_n=-(t_n-w_t^T\phi(x_n))\phi(x_n) \end{equation}$

3.3 正则化

3.3.1 $w||^2$ 正则化

我们通过最小化 $E_D(w)+\lambda E_w(w)$ 进行正则化求解参数 $w$
$\begin{equation} E_w(w)=\frac{1}{2}w^Tw \end{equation}$

$w$ 的精确解：对 $w$ 求导，并等于0得到：
$\begin{equation} \sum_{n=1}^{N} t_n\phi(x_n)^T - \sum_{n=1}^{N} w^T\phi(x_n)\phi(x_n)^T + \lambda w= 0 \end{equation}$

$\begin{equation} \sum_{n=1}^{N} t_n\phi(x_n)^T - w^T\left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T\right) + \lambda w = 0 \end{equation}$

$\begin{equation} w^T\left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T+\lambda I \right) = \sum_{n=1}^{N} t_n\phi(x_n)^T \end{equation}$

$\begin{equation} w = \left(\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T+\lambda I \right)^{-1} \sum_{n=1}^{N} t_n\phi(x_n) \end{equation}$
用矩阵的形式表示为：
$\begin{equation} w=(\Phi^T\Phi+\lambda I )^{-1}\Phi^Tt \end{equation}$
梯度下降法
加入正则化后， $w$ 使用梯度下降进行求解：
$\begin{equation} w_{t+1} = w_{t}-\eta\nabla E_n-\lambda \nabla E_w \end{equation}$
$\begin{equation} \nabla E_n=-(t_n-w_t^T\phi(x_n))\phi(x_n) \end{equation}$
$\begin{equation} \nabla E_w(w)= w_t \end{equation}$
$\begin{equation} w_{t+1} = w_{t} + \eta (t_n - w_t^T \phi(x_n)) \phi(x_n) - \lambda w_t \end{equation}$

3.3.2 $∣∣ w ∣∣$ 正则化

Lasso回归就是多元线性回归加上了 $∣∣ w ∣∣$ 正则化，求解过程参考Lasso

代码实现

二、多项式回归

1、问题描述

多项式拟合是一种数学与统计学中常见的技术，主要用于通过一个多项式函数来近似描述一组数据点的分布趋势。它是回归分析的一种，也叫多项式拟合，是机器学习和数据分析中的重要工具。
这你我门只考虑一维的数据，具体来说，如果我们有一组数据点 $D=\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}$ ，我们可能想找到一个多项式函数 $w_0 + w_1x + w_2x^2 + \ldots + w_mx^m$ ，使得该函数在这些点上的值与实际的 $y$ 值尽可能接近。这就是多项式拟合的主要目标。

2、模型建模

多项式回归方程：
$\begin{equation} P(x,w) = w_0 + w_1x + w_2x^2 + \ldots + w_mx^m \end{equation}$
目标：最小化均方误差 $E_D(w)$
$\begin{equation} E_D(w)=\frac{1}{2} \sum\limits^{N}_{n=1}\{P(x_n,w)-t_n\}^2 \end{equation}$

3、模型求解

已知：数据集 $x=\{x_1,x_2,\cdots,x_N\},t=\{t_1,t_2,\cdots,t_N\}$ ，回归方程 $w_0 + w_1x + w_2x^2 + \ldots + w_mx^m$ ，目标 $w^* = \underset{w}{\argmin} E_D(w)= \underset{w}{\argmin}\frac{1}{2} \sum\limits^{N}_{n=1}\{P(x_n,w)-t_n\}^2$

3.1精确解

我们将模型的预测值带入 $E_D(w)$ 中：
$\begin{equation} E_D(w)=\frac{1}{2} \sum\limits^{N}_{n=1}\{ w_0 + w_1x_n + w_2x_n^2 + \ldots + w_mx_n^m-t_n\}^2 \end{equation}$
分别对w求导得到：
$\begin{equation} \frac{\partial E_D(w)}{\partial w_i} = \sum_{n=1}^{N} x_n^i (w_0 + w_1 x_n + w_2 x_n^2 + \ldots + w_m x_n^m - t_n) \end{equation}$
一共有 $m + 1$ 个方程和 $m + 1$ 个参数，用矩阵或者消元法是可以求解的，但是我们定睛一看，如果我们把 $\mathbf{x}_n = [1, x_n, x_n^2, \ldots, x_n^m]^T$ 看成多元线性回规中的 $\mathbf{x}_n = [1, x_{n1}, x_{n2}, \ldots, x_{nm}]^T$ ， $\mathbf{w} = [w_0, w_1, \ldots, w_m]^T$ 仍然为多元线性回归中的 $w$ ，那么问题就变成了求解多元线性回归，那么 $w$ 的解就是 $\mathbf{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{t}$ ，那么这里的 $\mathbf{X}$ 和 $\mathbf{t}$ 分别为
$\begin{equation} \mathbf{X} = \begin{bmatrix} 1 & x_1 & x_1^2 & \ldots & x_1^m \\ 1 & x_2 & x_2^2 & \ldots & x_2^m \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_N & x_N^2 & \ldots & x_N^m \end{bmatrix} \end{equation}$
$\begin{equation} \mathbf{t} = \begin{bmatrix} t_1 \\ t_2 \\ \vdots \\ t_N \end{bmatrix} \end{equation}$
在这里我们也可以直接使用矩阵的形式推导一下参数 $\mathbf{w}$ 的结果，那么 $E_D(w)$ 可以写成:
$\begin{equation} \begin{align*} E_D(w)&=(\mathbf{X}\mathbf{w}-\mathbf{t})^T(\mathbf{X}\mathbf{w}-\mathbf{t}) \\ &= \mathbf{w}^T \mathbf{X}^T \mathbf{X} \mathbf{w} - 2 \mathbf{t}^T \mathbf{X} \mathbf{w} + \mathbf{t}^T \mathbf{t} \end{align*} \end{equation}$
然后，我们可以分别计算这三项关于 $\mathbf{w}$ 的导数：

对于第一项 $\mathbf{w}^T \mathbf{X}^T \mathbf{X} \mathbf{w}$ ，我们可以将其看作是 $\mathbf{w}$ 和 $\mathbf{X}^T \mathbf{X} \mathbf{w}$ 的点积，它的导数为：

$\begin{equation} \frac{\partial}{\partial \mathbf{w}} \mathbf{w}^T \mathbf{X}^T \mathbf{X} \mathbf{w} = 2 \mathbf{X}^T \mathbf{X} \mathbf{w} \end{equation}$

对于第二项 $\mathbf{t}^T \mathbf{X} \mathbf{w}$ ，它是 $\mathbf{w}$ 的线性函数，它的导数为：

$\begin{equation} \frac{\partial}{\partial \mathbf{w}} -2 \mathbf{t}^T \mathbf{X} \mathbf{w} = -2 \mathbf{X}^T \mathbf{t} \end{equation}$

对于第三项 $\mathbf{t}^T \mathbf{t}$ ，它是常数，对 $\mathbf{w}$ 的导数为0。

因此，误差函数 $E_D(w)$ 关于 $\mathbf{w}$ 的梯度为：

$\begin{equation} \nabla E_D(w) = 2 \mathbf{X}^T \mathbf{X} \mathbf{w} - 2 \mathbf{X}^T \mathbf{t} \end{equation}$
最后令 $\nabla E_D(w) =0$ 即可以解得 $\mathbf{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{t}$

3.2正则化

多项式拟合如果多项式的次数偏高，很容易过拟合，我们也可以通过正则化进行求解，其求解过程与多元线性回归相同。
$\begin{equation} E_D(w)=(\mathbf{X}\mathbf{w}-\mathbf{t})^T(\mathbf{X}\mathbf{w}-\mathbf{t}) \end{equation}$
$\begin{equation} E_w(w)=\frac{1}{2}\mathbf{w}^T\mathbf{w} \end{equation}$
$\begin{equation} \mathbf{w}=(\mathbf{X}^T\mathbf{X}+\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{t} \end{equation}$

4、代码实现

三、Lasso回归

Lasso回归就是多元线性回归加上了 $∣∣ w ∣∣$ 正则化，在这里我们不再介绍其背景和建模部门，其求解过程在多元线性回归的基础加上了 $L_1$ 正则化，即：
$\begin{equation} \begin{align*} \mathcal{L} &= RSS(w)+E_w(w) \\ &= (Xw-t)^T(Xw-t)+\lambda||w||_1 \\ &=\sum\limits_{n=1}^{N}\{t_n-w^T\phi (x_n)\}^2+\lambda||w||_1 \end{align*} \end{equation}$

如果这里用的 $MSE$ 代替 $RSS$ 最后的结果也会差一个系数 $N$ ，这里前面也会经常使用 $E_D(w)$ ，会差一个系数2

1、模型求解

首先看 $RSS$ 部分 $RSS$ 对 $w_j$ 进行求导得：
$\begin{equation} \begin{align*} \nabla RSS &= -2\sum\limits_{n=1}^{N}\phi_j (x_n)\{t_n-w^T\phi (x_n)\} \\ &= -2\sum\limits_{n=1}^{N}\phi_j (x_n)\{t_n- \sum\limits_{k=1}^{m}w_k\phi_k (x_n)\} \\ &= -2\sum\limits_{n=1}^{N}\phi_j (x_n)\{t_n- \sum\limits_{k=1,j\neq k}^{m}w_k\phi_k (x_n)- w_j\phi_j (x_n)\} \\ &= -2\sum\limits_{n=1}^{N}\phi_j (x_n)\{t_n- \sum\limits_{k=1,j\neq k}^{m}w_k\phi_k (x_n)\}+2 \sum\limits_{n=1}^{N} w_j\phi_j (x_n)^2\} \\ &= -2 \rho_j + 2w_jz_j \end{align*} \end{equation}$
令 $\nabla RSS = 0$ 得到 $w_j=\rho_j/z_j$
由于 $L_1$ 是不可导的，我们这里使用 $L_1$ 对 $w_j$ 的次梯度，即：

$\begin{equation} \nabla L_1= \left\{ \begin{aligned} & \lambda, & w_j>0\\ & [-\lambda, \lambda], &w_j=0\\ & -\lambda & w_j<0 \end{aligned} \right. \end{equation}$
将 $\nabla RSS$ 和 $\nabla L_1$ 合起来:
$\begin{equation} \nabla \mathcal{L} = -2 \rho_j + 2w_jz_j+ \left\{ \begin{aligned} & \lambda, & w_j>0\\ & [-\lambda, \lambda], &w_j=0\\ & -\lambda & w_j<0 \end{aligned} \right. \end{equation}$
$\begin{equation} \nabla \mathcal{L} = \left\{ \begin{aligned} &-2 \rho_j + 2w_jz_j+ \lambda, & w_j>0\\ &[-2 \rho_j -\lambda, -2 \rho_j +\lambda], &w_j=0\\ &-2 \rho_j + 2w_jz_j+ -\lambda & w_j<0 \end{aligned} \right. \end{equation}$
令 $\nabla \mathcal{L} = 0$ 得到 $w_j$
$\begin{equation} w_j = \left\{ \begin{aligned} & \frac{\rho_j - \lambda/2}{z_j}, & w_j>0\\ &0, &w_j=0\\ & \frac{\rho_j + \lambda/2}{z_j}& w_j<0 \end{aligned} \right. \end{equation}$
在这里插入图片描述
从上面的图可以看出，当 $|\rho_j|<\frac{\lambda}{2}$ 时 $w_j$ 会缩水为0，而如果只有 $RSS$ 做为损失的时候，只有 $\rho_j=0$ 时 $w_j$ 才会为0，因此lasso回归求得参数相比于正常回归对参数进行了裁剪，并且有更多的机会等于0，参数也更为稀疏。
Lasso回归使用坐标下降法更新参数 $w$ ，通过求解上述 $w_j$ 求解其中是的损失下降最大的进行更新，其他 $w_k$ 保持不变，直到收敛。

正则化的几何解释

$L_1$ 正则化也可以写成有约束的形式：
$\begin{equation} \begin{aligned} &\underset{w}{\text{minimize}} & & \frac{1}{2}(Xw-t)^T(Xw-t) \\ &\text{subject to} & & ||w||_1 \leq \epsilon \end{aligned} \end{equation}$
假设 $w=\{w_1,w_2\}$ 是一个二维的参数，那么我们可以在平面坐标上表示出 $w$ 的可行域与目标。
首先我们了解一下二次型图像的概念，目标函数是一个二次型 $Xw-t)^T(Xw-t)=w^TX^TXw-2t^TXw+w^Tw=loss$ ，那么圆锥曲线3种可能：椭圆、抛物线、双曲线

如果 $det(X^TX) > 0$ ，那么目标函数对应的是椭圆
如果 $det(X^TX) = 0$ ，那么目标函数对应的是抛物线
如果数据 $X$ 的变量之间存在多重共线性，那么 $det(X^TX)=0$ ，但是我们假设变量之间不存在多重共线性，所以目标函数是椭圆曲线，接着我们只要画出可行域，找到椭圆曲线与可行域的顶点相交或相切即为最优值。

我们将 $L_1$ 范数进行变形：
$\begin{equation} \left\| \begin{bmatrix} w_1 \\ w_2 \\ \end{bmatrix} \right\| = ||w_1||+||w_2|| \leq \epsilon \end{equation}$
$\begin{equation} \begin{cases} w_1 + w_2 \leq \epsilon, & w_1 \geq 0, w_2 \geq 0 \\ w_1 - w_2 \leq \epsilon, & w_1 \geq 0, w_2 < 0 \\ -w_1 + w_2 \leq \epsilon, & w_1 < 0, w_2 \geq 0 \\ -w_1 - w_2 \leq \epsilon, & w_1 < 0, w_2 < 0 \end{cases} \end{equation}$
由此可见 $L_1$ 范数的可行域是一个封闭的正方形，其顶点都落在坐标轴上。我们同样也可以画出1/2范数、2范数、4范数和无穷范数的可行域，那么可行域与目标曲线如下图所示：
在这里插入图片描述
从图中可以发现， $L_1$ 范数更容易比 $L_2$ 范数交于角点，这也更容易让 $w$ 取到等于0的值，从而解释了 $L_1$ 范数得到的参数更为稀疏。

四、岭回归

岭回归
归就是多元线性回归加上了 $w||^2$ 正则化，求解过程参考第一张的3.3.1节

参考

Bishop C M, Nasrabadi N M. Pattern recognition and machine learning[M]. New York: springer, 2006.

编程╱小白╲

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
一文搞懂多元线性回归 | 多项式回归 | 岭回归 | Lasso回归原理推导，L1、L2正则化以及代码实现

在多元线性回归中，我们的目标是使用一组输入变量（或特征）x1,x2,...,xDx_1, x_2, ..., x_Dx1,x2,...,xD 来预测一个输出变量 yyy。对于第iii条数据，其回归方程可以表示为：yi=w0+w1xi1+w2xi2+...+wDxiD+ϵi\begin{equation}y_i = w_0 + w_1 x_{i1} + w_2 x_{i2} + ... +w_D x_{iD} + \epsilon_i\end{equation}yi=w0+w1xi1+w
复制链接

扫一扫