DAY2_L2正则化

最新推荐文章于 2024-04-16 15:29:39 发布

XY-CHINA

最新推荐文章于 2024-04-16 15:29:39 发布

阅读量1.8k

点赞数 2

分类专栏：深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/LXY_CHINA/article/details/121069757

版权

深度学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

L2正则化

定义：旨在减小泛化误差而不是训练误差。通俗理解为凡是能够减小过拟合的方式都可以成为正则化。

权重衰减
原损失函数：J(w,b)
原权重更新：w = w - ŋ∇J(w)
使用正则化（L2正则化）：J1(w) = J(w) + (λ/2)||w||
使用正则化后的权重更新：w = w - ŋ[∇J(w) + λw] = (1 - ŋλ)w -ŋ∇J(w)
即每一次更新权重都会将w的学习范围进行缩小
理解：例如一个一元高次函数中，通过对高次项权重的衰减，来使图像中的曲折更少，从而减小函数对数据的拟合程度（如果函数曲折更多，则几乎可以将训练集所有的正负样本区分开）。在这里插入图片描述
（黄色曲线代表衰减高次项的权重，由于衰减高次项的权重，函数曲线不会完全拟合训练集，从而提高泛化能力；黑色代表未衰减高次项的权重，如过未使用权重衰减，函数会将训练集的数据近乎完全分开）

看到一个很形象的例子，把训练过程比作吃鸡游戏，目的就是活到最后或者将所有敌人击杀。未使用权重衰减之前，比作没有毒圈的吃鸡游戏，大家可以在整张地图活动。而毒圈缩小就是权重衰减，大家每一次的活动空间都会缩小（权重W的可学习的范围缩小）。

Hession矩阵
想要理解L2矩阵，首先需要了解Hession矩阵：首先需要了解Hession矩阵：对于多维函数f(X)，对其进行二阶求导，得到的结果合并成一个矩阵即Hession矩阵。Hession矩阵作为二阶导数可以反映梯度下降是否符合预期。在这里插入图片描述

Hession矩阵是一个实对称矩阵，可以被分解为一组特征值和特征向量的正交基，即在这里插入图片描述

L2正则化
向目标函数增加一个w的L2范数作为惩罚项λ||W||2（并没有使用λ||W - C||2, 没有指定圆的半径），即给W限定了一个范围，更新后的W的值只能落在给定的范围中。在这里插入图片描述由于没有指定C，所以黄色区域的半径是没有通过C来确定的。W1为约束条件下的最值点，橙色代表约束条件的梯度，蓝色为损失函数的梯度，而λ代表的就是损失函数梯度的大小比上约束条件梯度的大小。对于不同的半径，两个梯度的比值λ的大小是不同的，从而通过人为确定λ来确定限定范围的大小。

L2正则化能够实现权重衰减的推导过程如下：

首先将使用L2正则化后的的损失函数在未使用正则化时的最优解W* 处进行二阶泰勒展开，：由于W*为最优解，所以其一阶导为0
然后求一阶导并让其等于0：
由上面提到的Hession矩阵的性质以及正交矩阵的性质得到：
从推到结果可以看出通过调节损失函数梯度大小与约束函数梯度大小的比值α来进行权重衰减。如上方的图中所示，如果α的大小趋向零则代表限定区域的半径为无穷大，正则化后的解就会趋向W*。如果α在的值合适，W就会更新到一个比较好的值，既不会学习到一个导致过拟合的W*，也不会导致欠拟合。

XY-CHINA

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DAY2_L2正则化

正则化_1定义：旨在减小泛化误差而不是训练误差。通俗理解为凡是能够减小过拟合的方式都可以成为正则化。权重衰减原损失函数：J(w,b)原权重更新：w = w - ŋ∇J(w)使用正则化（L2正则化）：J1(w) = J(w) + (λ/2)||w||使用正则化后的权重更新：w = w - ŋ[∇J(w) + λw] = (1 - ŋλ)w -ŋ∇J(w)即每一次更新权重都会将w的学习范围进行缩小理解：例如一个一元高次函数中，通过对高次项权重的衰减，来使图像中的曲折更少，从而减小函数对数据的拟合
复制链接

扫一扫