机器学习:L2正则项(权重衰减)和梯度的理解

正则化方法:L2正则化

正则化定义:凡是可以减少泛化误差而不是减少训练误差的方法,都可以称作正则化方法

我们其实不用去管什么是泛化误差、什么是训练误差,只需“凡是能减少过拟合的方法都是正则化方法

正则化方法:防止过拟合,提高泛化能力

在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。

在这里插入图片描述

我们常常将原始数据集分为三部分:training data、validation data,testing data。在训练过程中,我们通常用validation data确定learning rate,根据validation data上的accuracy确定early stopping的epoch大小。如果直接在testing data上做这些,随着训练的进行,我们的网络实际上就是在一点一点地overfitting我们的testing data,导致最后得到的testing accuracy没有任何参考意义

training data的作用是计算梯度更新权重,validation data的作用是确定一些超参数,testing data则给出一个accuracy以判断网络的好坏

L2 regularization(权重衰减)

L2正则化就是在代价函数后面再加上一个正则化项:
C = C 0 + λ 2 n ∑ w w 2 C=C_0+\frac{\lambda}{2n}\sum_ww^2 C=C0+2nλww2

C0代表原始的代价函数,后面的那一项是L2正则化项。

正则化项:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整

L2正则化项是如何避免overfitting的呢?

我们推导一下看看,先求导:
∂ C ∂ w = ∂ C 0 ∂ w + λ n w ∂ C ∂ b = ∂ C 0 ∂ b \frac{\partial{C}}{\partial{w}}=\frac{\partial{C_0}}{\partial{w}}+\frac{\lambda}{n}w\\ \frac{\partial{C}}{\partial{b}}=\frac{\partial{C_0}}{\partial{b}} wC=wC0+nλwbC=bC0
可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响:
w → w − η ∂ C 0 ∂ w − η λ n w = ( 1 − η λ n ) w − η ∂ C 0 ∂ w w \rightarrow w-\eta\frac{\partial{C_0}}{\partial{w}}-\frac{\eta\lambda}{n}w=(1-\frac{\eta\lambda}{n})w-\eta\frac{\partial{C_0}}{\partial{w}} wwηwC0nηλw=(1nηλ)wηwC0
在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为 1−ηλ/n ,因为η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。

另外,需要提一下,对于基于mini-batch的随机梯度下降,w和b更新的公式跟上面给出的有点不同:
w → ( 1 − η λ n ) w − η m ∑ x ∂ C x ∂ w b → b − η m ∑ x ∂ C x ∂ b w \rightarrow (1-\frac{\eta\lambda}{n})w-\frac{\eta}{m}\sum_x\frac{\partial{C_x}}{\partial{w}}\\ b \rightarrow b-\frac{\eta}{m}\sum_x\frac{\partial{C_x}}{\partial{b}} w(1nηλ)wmηxwCxbbmηxbCx
对比上面w的更新公式,可以发现后面那一项变了,变成所有导数加和,乘以η再除以m,m是一个mini-batch中样本的个数。

到目前为止,我们只是解释了L2正则化项有让w“变小”的效果,但是还没解释为什么w“变小”可以防止overfitting?

一个所谓“显而易见”的解释就是:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。

稍微数学一点的解释是:过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

在这里插入图片描述

而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况

梯度的方向为什么是函数值增加最快的方向

一元函数的导数

仅拥有一个自变量的函数称为一元函数,简记为 y=f(x) 。在实际生活中,人们想要了解函数 y 在点 x0 处的变化率。例如,一个非匀速运动的质点在某一时刻的瞬时速度;或者一条曲线上某一点的斜率。此时涉及到一个问题:如何求出函数在某一个点的变化率呢?一般情况下,人们可以很容易求出函数在自变量某一段的变化率。例如,当自变量在 x0 处产生一个增量 Δx 时,函数 y 也会产生一个增量 Δy ,此时 Δy/Δx 即为函数在自变量从 x0 变化到 x0+Δx 时的变化率。那么,如何求出函数 y 在点 x0 处的变化率呢?

为了解决上述问题,需要借助极限的概念:当 Δx 趋于 0 时,若 Δy/Δx 的极限存在,则此极限值即为函数 y 在点 x0 处的变化率,也将其称之为函数 y 在点 x0 处的导数。具体过程如下图所示:
f ′ ( x 0 ) = lim ⁡ △ x → 0 △ y △ x = lim ⁡ △ x → 0 f ( x 0 + △ x ) − f ( x 0 ) △ x f'(x_0)=\lim_{\triangle x \to 0}\frac{\triangle y}{\triangle x}=\lim_{\triangle x \to 0}\frac{f(x_0+\triangle x)-f(x_0)}{\triangle x} f(x0)=x0limxy=x0limxf(x0+x)f(x0)
在这里插入图片描述

由于一元函数仅仅具有一个自变量x,因此这类函数只能反应函数沿x轴方向的变化率。进一步讲,当点x0确定后,函数在该点的变化率有且仅有一个,数值上为过该点的切线的斜率。当其大于0时,表明该函数在该点有上升的趋势;当其小于0时,表明函数在该点有下降的趋势

多元函数的偏导数

拥有多个自变量( ≥2 )的函数称为多元函数,这里以二元函数 z=f(x,y) 为例讲解偏导数

由于二元函数具有两个自变量 x,y ,因此函数图像为一个曲面。如何计算二元函数对曲面上一点 (x0,y0) 的变化率呢?此处需要注意的是,因为过曲面上的某一点可以作出无数条切线,因此函数在该点也具有无数个变化率,可以先考虑函数沿着两个坐标轴(x轴、y轴)方向的变化率

当自变量y固定在y0,函数在点x0处的变化率称为函数在点(x0,y0)处对x的偏导数,记作:fx(x0,y0)

当自变量x固定在x0,函数在点y0处的变化率称为函数在点(x0,y0)处对y的偏导数,记作:fy(x0,y0)

多元函数的方向导数

多元函数的偏导数仅仅描述了函数在点(x0,y0)处沿两个坐标轴(x轴,y轴)方向的变化率,然而实际上函数在该点具有无数个变化率(在几何上表现为该点具有无数个切线的斜率),因此如何求出函数在点(x0,y0)处沿某一方向的变化率呢?万变不离其宗,此时仍按变化率的定义去求解,即只需求出函数的增量与自变量沿着某一方向增量比值的极限即可

在这里插入图片描述

假设某一方向的单位向量为 el=(cos⁡α,sin⁡α) , α 为此向量与x轴正向夹角,显然根据 α 的不同,此向量可以表示任意方向的单位向量.当点 (x0,y0) 沿着该方向产生一个增量 t 到达点 (x0+tcos⁡α,y0+tsin⁡α) 时(终点的坐标可以根据向量运算法则求出),函数z也会产生一个增量 Δz=f(x0+tcos⁡α,y0+tsin⁡α)−f(x0,y0) 。此时函数沿此方向的变化率为:
lim ⁡ t → 0 + f ( x 0 + t cos ⁡ α , y 0 + t sin ⁡ α ) − f ( x 0 , y 0 ) t   = f x ( x 0 , y 0 ) cos ⁡ α + f y ( x 0 , y 0 ) sin ⁡ α \lim_{t \rightarrow 0^{+}} \frac{f(x_0+t \cos \alpha, y_0+t \sin \alpha)-f(x_0,y_0)}{t} \ = f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha t0+limtf(x0+tcosα,y0+tsinα)f(x0,y0) =fx(x0,y0)cosα+fy(x0,y0)sinα
在这里插入图片描述

多元函数的梯度

既然函数在点(x0,y0)处沿着任意的方向都有一个变化率,那么沿着哪个方向函数的变化率最大呢

函数z=f(x,y)沿着任意方向的( α 取任意值)的变化率为:
f x ( x 0 , y 0 ) cos ⁡ α + f y ( x 0 , y 0 ) sin ⁡ α f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha fx(x0,y0)cosα+fy(x0,y0)sinα
因此接下来只需求得使其达到最大值时的 α 便可解决上述问题。由于上式可以看成两个向量的内积,令g=(fx(x0,y0),fy(x0,y0)),el=(cosα,sinα),则:
f x ( x 0 , y 0 ) cos ⁡ α + f y ( x 0 , y 0 ) sin ⁡ α = g ⋅ e l = ∣ g ∣ ∣ e l ∣ cos ⁡ θ = ∣ g ∣ cos ⁡ θ f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha = \mathbf{g} \cdot \mathbf{e}_l = |\mathbf{g}| |\mathbf{e}_l| \cos \theta = |\mathbf{g}| \cos \theta fx(x0,y0)cosα+fy(x0,y0)sinα=gel=g∣∣elcosθ=gcosθ
其中, θ 为 g 和 el 的夹角。根据上式,可得出如下结论:

  • 当 θ=0 时,即 el 和 g 方向相同时,函数变化率最大,且在点 (x0,y0) 处呈上升趋势;
  • 当 θ=π 时,即 el 和 g 方向相反时,函数变化率最大,且在点 (x0,y0) 处呈下降趋势
  • 最后,当点 (x0,y0) 确定后,向量 g=(fx(x0,y0),fy(x0,y0)) 也随即确定。由于向量 g 的方向为函数值增加最快的方向,而此方向经常被用于实际生活中,因此为便于表述,人们为其取了一个名字—梯度。换而言之,多元函数在某一点的梯度是一个非常特殊的向量,其由多元函数对每个变量的偏导数组成(这即是为什么求梯度的时候需要对各个变量求偏导的原因),其方向为函数在该点增加最快的方向,大小为函数在该点的最大变化率。

参考

1、正则化方法:L1和L2 regularization、数据集扩增、dropout:https://blog.csdn.net/u012162613/article/details/44261657

2、梯度的方向为什么是函数值增加最快的方向:https://zhuanlan.zhihu.com/p/38525412

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值