动手深度学习v2 权重衰减公式理解 拉格朗日和正则化的理解之一

前言

这次看见沐神讲的权重衰退,
权重衰退就是为了处理过拟合的现象,但是一下抛出来这个公式就是不是很理解,还和拉格朗日有关,作为高数早忘的我就查了一下,在b站这个大神讲的还不错,我就整理了一下,从三个角度去理解,我暂时就整理了第一个。
L1和L2正则化”直观理解(之一),从拉格朗日乘数法角度进行理解在这里插入图片描述

一.什么是正则化(regularization)

在动手深度学习的英文版里面解释了凡是减少过拟合就是正则化

1. 为什么要用l1和l2 范数

在机器学习中,我们最喜欢解决的就是凸优化问题,而l1和l2范数正是利用了l1和l2的凸集特性
在这里插入图片描述

二.神经网络为什么会产生过拟合(原因之一)

1.W和b参数值不唯一?

假如有下面一个神经网络
在这里插入图片描述

在这里插入图片描述假如现在我们计算出了最终结果W1,b1,这时候我们将隐藏层的W和b都增加两倍(a^(l-1)变小两倍),这时候的计算出的结果并不会变的,只是我们原来的W1会变成W1/2。
这就造成了我们设置的w初始值如果较小的话,最后的W就会较大。反之亦然。

所以在我们结果相同下,W得出的结果很很取决与初始值
w初始值如果较小,我们W1很大,测试集中的误差和噪声也会放大,从而产生过拟合。

三.拉格朗日的’介入’

上面既然说到了W参数可能会存在过大,所以我们就要人为的去限制以这个参数。而这正是拉格朗日擅长的。
所以有了公式
在这里插入图片描述
上面的两个蓝点就是极值点,而λ就是控制两方梯度相等,从而求出极值点。相当于λ控制的长度。
两图对应l1范数和l2范数,考虑一下为什么不用l0.5正则呢?

下面我们把l2范数拆开
在这里插入图片描述
而我们一般见到的是这个
在这里插入图片描述

两者有什么关系呢?
在这里插入图片描述
他们两取得最值虽然不同,但是取得的最值的W确实一样的。公式中的c指的是半径。
在这里插入图片描述

可以看到第二个公式少了c,这真是要我们去确定的
红色的梯度是损失函数的梯度,而绿色的梯度是λ来确定。当两个梯度方向相反,大小相等是,C就确定了。

在这里插入图片描述
传统的拉格朗日,是在已知λ的条件下求C,而机器学习里是通过λ去求C

l1 范数和l2范数的特点

在这里插入图片描述
l1 可以把特征值剥离出来,l1正则化可以带来稀疏性。

视频结尾还有讲为什么正则化不会带来较大偏差
语言并不好说,推荐大家去看看

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值