DAY2_L2正则化

L2正则化

定义:旨在减小泛化误差而不是训练误差。通俗理解为凡是能够减小过拟合的方式都可以成为正则化。

权重衰减
原损失函数:J(w,b)
原权重更新:w = w - ŋ∇J(w)
使用正则化(L2正则化):J1(w) = J(w) + (λ/2)||w||
使用正则化后的权重更新:w = w - ŋ[∇J(w) + λw] = (1 - ŋλ)w -ŋ∇J(w)
即每一次更新权重都会将w的学习范围进行缩小
理解:例如一个一元高次函数中,通过对高次项权重的衰减,来使图像中的曲折更少,从而减小函数对数据的拟合程度(如果函数曲折更多,则几乎可以将训练集所有的正负样本区分开)。在这里插入图片描述
(黄色曲线代表衰减高次项的权重,由于衰减高次项的权重,函数曲线不会完全拟合训练集,从而提高泛化能力;黑色代表未衰减高次项的权重,如过未使用权重衰减,函数会将训练集的数据近乎完全分开)

看到一个很形象的例子,把训练过程比作吃鸡游戏,目的就是活到最后或者将所有敌人击杀。未使用权重衰减之前,比作没有毒圈的吃鸡游戏,大家可以在整张地图活动。而毒圈缩小就是权重衰减,大家每一次的活动空间都会缩小(权重W的可学习的范围缩小)。

Hession矩阵
想要理解L2矩阵,首先需要了解Hession矩阵:首先需要了解Hession矩阵:对于多维函数f(X),对其进行二阶求导,得到的结果合并成一个矩阵即Hession矩阵。Hession矩阵作为二阶导数可以反映梯度下降是否符合预期。在这里插入图片描述

Hession矩阵是一个实对称矩阵,可以被分解为一组特征值和特征向量的正交基,即在这里插入图片描述

L2正则化
向目标函数增加一个w的L2范数作为惩罚项λ||W||2(并没有使用λ||W - C||2, 没有指定圆的半径),即给W限定了一个范围,更新后的W的值只能落在给定的范围中。在这里插入图片描述 由于没有指定C,所以黄色区域的半径是没有通过C来确定的。W1为约束条件下的最值点,橙色代表约束条件的梯度,蓝色为损失函数的梯度,而λ代表的就是损失函数梯度的大小比上约束条件梯度的大小。对于不同的半径,两个梯度的比值λ的大小是不同的,从而通过人为确定λ来确定限定范围的大小。

L2正则化能够实现权重衰减的推导过程如下:

  • 首先将使用L2正则化后的的损失函数在未使用正则化时的最优解W* 处进行二阶泰勒展开,:在这里插入图片描述由于W*为最优解,所以其一阶导为0

  • 然后求一阶导并让其等于0:在这里插入图片描述

  • 由上面提到的Hession矩阵的性质以及正交矩阵的性质得到:在这里插入图片描述
    从推到结果可以看出通过调节损失函数梯度大小与约束函数梯度大小的比值α来进行权重衰减。如上方的图中所示,如果α的大小趋向零则代表限定区域的半径为无穷大,正则化后的解就会趋向W*。如果α在的值合适,W就会更新到一个比较好的值,既不会学习到一个导致过拟合的W*,也不会导致欠拟合。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值