pytorch l2正则化_特征值与特征向量,过拟合,L1与L2正则化

最新推荐文章于 2024-09-06 08:22:30 发布

weixin_39979215

最新推荐文章于 2024-09-06 08:22:30 发布

阅读量730

点赞数

文章标签： pytorch l2正则化特征值与特征向量

特征值与特征向量

特征值的基本定义:设A为n阶矩阵，若存在常数λ及n维非零向量x，使得Ax=λx，则称λ是矩阵A的特征值，x是A属于特征值λ的特征向量。

A的所有特征值的全体，叫做A的谱，记为λ(A)

使用特征值求特征向量

设A为n阶矩阵，根据关系式Ax=λx，可写出(λE-A)x=0，继而写出特征多项式|λE-A|=0，可求出矩阵A有n个特征值（包括重特征值）。将求出的特征值λi代入原特征多项式，求解方程(λiE-A)x=0，所求解向量x就是对应的特征值λi的特征向量。

特征向量

第一性质

线性变换的特征向量是指在变换下方向不变，或者简单地乘以一个缩放因子的非零向量。

特征向量对应的特征值是它所乘的那个缩放因子。

特征空间就是由所有有着相同特征值的特征向量组成的空间，还包括零向量，但要注意零向量本身不是特征向量 [1] 。

线性变换的主特征向量是最大特征值对应的特征向量。

特征值的几何重次是相应特征空间的维数。

有限维向量空间上的一个线性变换的谱是其所有特征值的集合。

例如，三维空间中的旋转变换的特征向量是沿着旋转轴的一个向量，相应的特征值是1，相应的特征空间包含所有和该轴平行的向量。该特征空间是一个一维空间，因而特征值1的几何重次是1。特征值1是旋转变换的谱中唯一的实特征值。

过拟合出现的原因及对应的解决方案

过拟合的定义

给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据.

判断标准

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集；第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；而中间的模型似乎最合适。

出现的原因

1. 训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度；

2. 训练集和测试集特征分布不一致；

3. 样本里的噪音数据干扰过大，大到模型过分记住了噪音特征，反而忽略了真实的输入输出间的关系；

4. 权值学习迭代次数足够多(Overtraining)，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

问题是，如果我们发现了过拟合问题，应该如何处理？

尝试减少特征的数量
尝试获得更多的特征
尝试增加多项式的特征
尝试减少正则化程度λ
尝试增加正则化程度λ

解决方案

1. simpler model structure

调小模型复杂度，使其适合自己训练集的数量级（缩小宽度和减小深度）

2. data augmentation

训练集越多，过拟合的概率越小。在计算机视觉领域中，增广的方式是对图像旋转，缩放，剪切，添加噪声等。

3. regularization

参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误差会很小。正则化是指通过引入额外新信息来解决机器学习中过拟合问题的一种方法。这种额外信息通常的形式是模型复杂性带来的惩罚度。正则化可以保持模型简单，另外，规则项的使用还可以约束我们的模型的特性。

L1与L2正则化

L1 正则化公式也很简单，直接在原来的损失函数基础上加上权重参数的绝对值

L2 正则化公式非常简单，直接在原来的损失函数基础上加上权重参数的平方和

L1 与 L2 解的稀疏性

以二维情况讨论，上图左边是 L2 正则化，右边是 L1 正则化。从另一个方面来看，满足正则化条件，实际上是求解蓝色区域与黄色区域的交点，即同时满足限定条件和 Ein 最小化。对于 L2 来说，限定区域是圆，这样，得到的解 w1 或 w2 为 0 的概率很小，很大概率是非零的。

对于 L1 来说，限定区域是正方形，方形与蓝色区域相交的交点是顶点的概率很大，这从视觉和常识上来看是很容易理解的。也就是说，方形的凸点会更接近 Ein 最优解对应的 wlin 位置，而凸点处必有 w1 或 w2 为 0。这样，得到的解 w1 或 w2 为零的概率就很大了。所以，L1 正则化的解具有稀疏性。

扩展到高维，同样的道理，L2 的限定区域是平滑的，与中心点等距；而 L1 的限定区域是包含凸点的，尖锐的。这些凸点更接近 Ein 的最优解位置，而在这些凸点上，很多 wj 为 0。

正则化参数 λ

以 L2 为例，若 λ 很小，对应上文中的 C 值就很大。这时候，圆形区域很大，能够让 w 更接近 Ein 最优解的位置。若 λ 近似为 0，相当于圆形区域覆盖了最优解位置，这时候，正则化失效，容易造成过拟合。相反，若 λ 很大，对应上文中的 C 值就很小。这时候，圆形区域很小，w 离 Ein 最优解的位置较远。w 被限制在一个很小的区域内变化，w 普遍较小且接近 0，起到了正则化的效果。但是，λ 过大容易造成欠拟合。欠拟合和过拟合是两种对立的状态。

weixin_39979215

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫