笔记 | 范数正则化稀疏

最新推荐文章于 2024-07-17 07:45:00 发布

抹茶红豆泥

最新推荐文章于 2024-07-17 07:45:00 发布

阅读量870

点赞数 1

分类专栏：机器学习文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/weixin_43235581/article/details/127860998

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

范数的概念

范数，是具有“距离”概念的函数。

在数学上，范数包括向量范数和矩阵范数，向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小。

一种非严密的解释：

对于向量范数：向量空间中的向量都是有大小的，这个大小就是用范数来度量的，不同的范数都可以来度量这个大小
对于矩阵范数：通过运算 $A X = B$ ，可以将向量 $X$ 变化为 $B$ ，矩阵范数就是来度量这个变化大小的。

范数是机器学习和深度学习的一个重要概念，通常用于评估模型的误差。

向量的范数

假设向量 $X=[2, 3, -5, -7] $

$L_0$ -范数： 向量中非零元素的个数

$L_1$ -范数： $||X||_1=\sum_{i=1}^n|x_i|$

向量的各个元素的绝对值之和

向量 $X$ 的 $L_1$ -范数： $X||_1=2+3+5+7=17$

$L_2$ -范数： $||X||_2=\sqrt{\sum_{i=1}^nx_i^2}$

向量的各个元素的平方和再开平方根

向量 $X$ 的 $L_2$ -范数： $||X||_2=\sqrt{(2^2+3^2+(-5)^2+(-7)^2)}=9.3274$

正无穷范数： $X||_∞=max_{1≤i≤n}|x_i|$

向量的各个元素的绝对值中最大的

负无穷范数： $X||_{-∞}=min_{1≤i≤n}|x_i|$
向量的各个元素的绝对值中最小的

向量 $X$ 的无穷范数： $X$ 的正无穷范数为 $7$ ，负无穷范数为 $2$

p-范数： $||X||_p=(\sum_{i=1}^n |x_i|^p)^{\frac1p}$

向量的各个元素的绝对值的 $p$ 次方和的 $\frac1p$ 次幂

性质：

规范是非负值
零向量的范数是 0
向量之和的范数小于或等于这些向量的范数之和 $∣ ∣ u + v ∣ ∣ \leq ∣ ∣ u ∣ ∣ + ∣ ∣ v ∣ ∣$
向量的范数乘以标量等于该标量的绝对值乘以向量的范数 $∣ ∣ k v ∣ ∣ = k ∣ ∣ v ∣ ∣$

矩阵的范数

假设矩阵 $\begin{bmatrix} -1 & 2 & -3 \\ 4 & -6 & 6 \end{bmatrix}\\$

1-范数（列和范数）： 矩阵的每一列上的元素的绝对值先求和，再从中取个最大值（即，列和最大）

矩阵 $A$ 先得到：[5,8,9]，再取最大值：9

2-范数（谱范数）： 矩阵 $A^TA$ 的最大特征值开平方根

矩阵 $A$ 的 2-范数是：10.0623

无穷范数（行和范数）： 矩阵的每一行上的元素绝对值先求和，再从中取个最大值（即，行和最大）

矩阵 $A$ 先得到：[6,16]，再取最大值：16

为解决实际问题中的困难而提出的新的范数定义：

核范数： 矩阵的奇异值之和，可以用来低秩表示（最小化核范数 = 最小化矩阵的秩——低秩）

矩阵 $A$ 的核范数是：10.9287

$L_0$ -范数： 矩阵中的非零元素的个数，通常用它来表示稀疏， $L_0$ -范数越小，0就越多，越稀疏

矩阵 $A$ 的 $L_0$ -范数是：6

$L_1$ -范数： 矩阵中的各个元素的绝对值之和，是 $L_0$ -范数的最优凸近似，也可以表示稀疏

矩阵 $A$ 的 $L_1$ -范数是：22

$F$ -范数： 矩阵的各个元素的平方之和的平方根，也叫矩阵的 $L_2$ 范数，是一个凸函数，可以求导求解，易于计算

矩阵 $A$ 的 $F$ -范数是：10.0995

$L_{21}$ -范数： 矩阵先以每一列为单位，求每一列的 $F$ -范数，再将得到的结果求 $L_1$ -范数，是介于 $L_1$ -范数和 $L_2$ -范数之间的一种范数

矩阵 $A$ 的 $L_{21}$ -范数是：17.1559

范数应用-损失函数

请添加图片描述

在回归问题中待解决的问题是：找出一条线，让数据点到线上的总距离（也就是error）最小。

范数可以表示距离 —> 因此可以用 $L_1$ -范数和 $L_2$ -范数作为损失函数，度量预测值与实际目标之间的距离

—> 最小化损失函数 = 最小化预测值与实际值之间的距离

$L_1$ -范数损失函数，又称为最小绝对偏差 (least absolute deviation,LAD)

请添加图片描述

$L_2$ -范数损失函数，又称为最小二乘误差（least squares error, LSE）

请添加图片描述

范数应用-正则项

过拟合：模型准确地记住了所有训练数据，包括噪声和不相关的特征。
过度贴合训练样本点，导致泛化能力差。（复杂的曲线无法保证能穿过下一个随机给出的样本点）
解决方法：清洗数据、减少特征值、正则化等
正则化：通过给需要训练的目标函数加上一些规则（限制），缩小求解的范围。
稀疏：消除数据中一些无用特征，使模型泛化，减小过拟合的几率。
解向量的大部分分量（权重）为零，只有少数是非零的。

正则化 --> 稀疏 —> 避免过拟合

对于实验过程中出现的过拟合问题，正则化可以防止过拟合。即，在损失函数中加个正则项，防止参数过度拟合。

常用的正则项：

$L_1$ -范数正则项： $λ\sum^n_{j=1}|w_j|$
$L_2$ -范数正则项： $λ\sum^n_{j=1}w_j^2$

$L_1$ -范数正则项和 $L_2$ -范数正则项的区别：

$L_1$ -范数正则项：也叫稀疏规则算子（Lasso regularization）。

可以产生稀疏权值矩阵，把不重要的特征直接置零，防止过拟合，即特征自动选择，是一个天然的特征选择器。

对于线性回归模型，使用 $L_1$ -范数正则项的模型叫做 Lasso回归。
$L_2$ -范数正则项：可以让参数尽可能小，接近于0，防止模型过拟合。

但是与 $L_1$ 不同的是不会等于0，这样得到的模型抗干扰能力强。

对于线性回归模型，使用 $L_2$ -范数正则项的模型叫做 Ridge回归（岭回归）。