正则化方法:L2正则化
正则化定义:凡是可以减少泛化误差而不是减少训练误差的方法,都可以称作正则化方法
我们其实不用去管什么是泛化误差、什么是训练误差,只需“凡是能减少过拟合的方法都是正则化方法”
正则化方法:防止过拟合,提高泛化能力
在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。
我们常常将原始数据集分为三部分:training data、validation data,testing data。在训练过程中,我们通常用validation data确定learning rate,根据validation data上的accuracy确定early stopping的epoch大小。如果直接在testing data上做这些,随着训练的进行,我们的网络实际上就是在一点一点地overfitting我们的testing data,导致最后得到的testing accuracy没有任何参考意义
training data的作用是计算梯度更新权重,validation data的作用是确定一些超参数,testing data则给出一个accuracy以判断网络的好坏
L2 regularization(权重衰减)
L2正则化就是在代价函数后面再加上一个正则化项:
C
=
C
0
+
λ
2
n
∑
w
w
2
C=C_0+\frac{\lambda}{2n}\sum_ww^2
C=C0+2nλw∑w2
C0代表原始的代价函数,后面的那一项是L2正则化项。
正则化项:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整
L2正则化项是如何避免overfitting的呢?
我们推导一下看看,先求导:
∂
C
∂
w
=
∂
C
0
∂
w
+
λ
n
w
∂
C
∂
b
=
∂
C
0
∂
b
\frac{\partial{C}}{\partial{w}}=\frac{\partial{C_0}}{\partial{w}}+\frac{\lambda}{n}w\\ \frac{\partial{C}}{\partial{b}}=\frac{\partial{C_0}}{\partial{b}}
∂w∂C=∂w∂C0+nλw∂b∂C=∂b∂C0
可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响:
w
→
w
−
η
∂
C
0
∂
w
−
η
λ
n
w
=
(
1
−
η
λ
n
)
w
−
η
∂
C
0
∂
w
w \rightarrow w-\eta\frac{\partial{C_0}}{\partial{w}}-\frac{\eta\lambda}{n}w=(1-\frac{\eta\lambda}{n})w-\eta\frac{\partial{C_0}}{\partial{w}}
w→w−η∂w∂C0−nηλw=(1−nηλ)w−η∂w∂C0
在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为 1−ηλ/n ,因为η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。
另外,需要提一下,对于基于mini-batch的随机梯度下降,w和b更新的公式跟上面给出的有点不同:
w
→
(
1
−
η
λ
n
)
w
−
η
m
∑
x
∂
C
x
∂
w
b
→
b
−
η
m
∑
x
∂
C
x
∂
b
w \rightarrow (1-\frac{\eta\lambda}{n})w-\frac{\eta}{m}\sum_x\frac{\partial{C_x}}{\partial{w}}\\ b \rightarrow b-\frac{\eta}{m}\sum_x\frac{\partial{C_x}}{\partial{b}}
w→(1−nηλ)w−mηx∑∂w∂Cxb→b−mηx∑∂b∂Cx
对比上面w的更新公式,可以发现后面那一项变了,变成所有导数加和,乘以η再除以m,m是一个mini-batch中样本的个数。
到目前为止,我们只是解释了L2正则化项有让w“变小”的效果,但是还没解释为什么w“变小”可以防止overfitting?
一个所谓“显而易见”的解释就是:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。
稍微数学一点的解释是:过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。
而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况
梯度的方向为什么是函数值增加最快的方向
一元函数的导数
仅拥有一个自变量的函数称为一元函数,简记为 y=f(x) 。在实际生活中,人们想要了解函数 y 在点 x0 处的变化率。例如,一个非匀速运动的质点在某一时刻的瞬时速度;或者一条曲线上某一点的斜率。此时涉及到一个问题:如何求出函数在某一个点的变化率呢?一般情况下,人们可以很容易求出函数在自变量某一段的变化率。例如,当自变量在 x0 处产生一个增量 Δx 时,函数 y 也会产生一个增量 Δy ,此时 Δy/Δx 即为函数在自变量从 x0 变化到 x0+Δx 时的变化率。那么,如何求出函数 y 在点 x0 处的变化率呢?
为了解决上述问题,需要借助极限的概念:当 Δx 趋于 0 时,若 Δy/Δx 的极限存在,则此极限值即为函数 y 在点 x0 处的变化率,也将其称之为函数 y 在点 x0 处的导数。具体过程如下图所示:
f
′
(
x
0
)
=
lim
△
x
→
0
△
y
△
x
=
lim
△
x
→
0
f
(
x
0
+
△
x
)
−
f
(
x
0
)
△
x
f'(x_0)=\lim_{\triangle x \to 0}\frac{\triangle y}{\triangle x}=\lim_{\triangle x \to 0}\frac{f(x_0+\triangle x)-f(x_0)}{\triangle x}
f′(x0)=△x→0lim△x△y=△x→0lim△xf(x0+△x)−f(x0)
由于一元函数仅仅具有一个自变量x,因此这类函数只能反应函数沿x轴方向的变化率。进一步讲,当点x0确定后,函数在该点的变化率有且仅有一个,数值上为过该点的切线的斜率。当其大于0时,表明该函数在该点有上升的趋势;当其小于0时,表明函数在该点有下降的趋势
多元函数的偏导数
拥有多个自变量( ≥2 )的函数称为多元函数,这里以二元函数 z=f(x,y) 为例讲解偏导数
由于二元函数具有两个自变量 x,y ,因此函数图像为一个曲面。如何计算二元函数对曲面上一点 (x0,y0) 的变化率呢?此处需要注意的是,因为过曲面上的某一点可以作出无数条切线,因此函数在该点也具有无数个变化率,可以先考虑函数沿着两个坐标轴(x轴、y轴)方向的变化率
当自变量y固定在y0,函数在点x0处的变化率称为函数在点(x0,y0)处对x的偏导数,记作:fx(x0,y0)
当自变量x固定在x0,函数在点y0处的变化率称为函数在点(x0,y0)处对y的偏导数,记作:fy(x0,y0)
多元函数的方向导数
多元函数的偏导数仅仅描述了函数在点(x0,y0)处沿两个坐标轴(x轴,y轴)方向的变化率,然而实际上函数在该点具有无数个变化率(在几何上表现为该点具有无数个切线的斜率),因此如何求出函数在点(x0,y0)处沿某一方向的变化率呢?万变不离其宗,此时仍按变化率的定义去求解,即只需求出函数的增量与自变量沿着某一方向增量比值的极限即可
假设某一方向的单位向量为 el=(cosα,sinα) , α 为此向量与x轴正向夹角,显然根据 α 的不同,此向量可以表示任意方向的单位向量.当点 (x0,y0) 沿着该方向产生一个增量 t 到达点 (x0+tcosα,y0+tsinα) 时(终点的坐标可以根据向量运算法则求出),函数z也会产生一个增量 Δz=f(x0+tcosα,y0+tsinα)−f(x0,y0) 。此时函数沿此方向的变化率为:
lim
t
→
0
+
f
(
x
0
+
t
cos
α
,
y
0
+
t
sin
α
)
−
f
(
x
0
,
y
0
)
t
=
f
x
(
x
0
,
y
0
)
cos
α
+
f
y
(
x
0
,
y
0
)
sin
α
\lim_{t \rightarrow 0^{+}} \frac{f(x_0+t \cos \alpha, y_0+t \sin \alpha)-f(x_0,y_0)}{t} \ = f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha
t→0+limtf(x0+tcosα,y0+tsinα)−f(x0,y0) =fx(x0,y0)cosα+fy(x0,y0)sinα
多元函数的梯度
既然函数在点(x0,y0)处沿着任意的方向都有一个变化率,那么沿着哪个方向函数的变化率最大呢?
函数z=f(x,y)沿着任意方向的( α 取任意值)的变化率为:
f
x
(
x
0
,
y
0
)
cos
α
+
f
y
(
x
0
,
y
0
)
sin
α
f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha
fx(x0,y0)cosα+fy(x0,y0)sinα
因此接下来只需求得使其达到最大值时的 α 便可解决上述问题。由于上式可以看成两个向量的内积,令g=(fx(x0,y0),fy(x0,y0)),el=(cosα,sinα),则:
f
x
(
x
0
,
y
0
)
cos
α
+
f
y
(
x
0
,
y
0
)
sin
α
=
g
⋅
e
l
=
∣
g
∣
∣
e
l
∣
cos
θ
=
∣
g
∣
cos
θ
f_x(x_0,y_0) \cos \alpha + f_y(x_0,y_0) \sin \alpha = \mathbf{g} \cdot \mathbf{e}_l = |\mathbf{g}| |\mathbf{e}_l| \cos \theta = |\mathbf{g}| \cos \theta
fx(x0,y0)cosα+fy(x0,y0)sinα=g⋅el=∣g∣∣el∣cosθ=∣g∣cosθ
其中, θ 为 g 和 el 的夹角。根据上式,可得出如下结论:
- 当 θ=0 时,即 el 和 g 方向相同时,函数变化率最大,且在点 (x0,y0) 处呈上升趋势;
- 当 θ=π 时,即 el 和 g 方向相反时,函数变化率最大,且在点 (x0,y0) 处呈下降趋势
- 最后,当点 (x0,y0) 确定后,向量 g=(fx(x0,y0),fy(x0,y0)) 也随即确定。由于向量 g 的方向为函数值增加最快的方向,而此方向经常被用于实际生活中,因此为便于表述,人们为其取了一个名字—梯度。换而言之,多元函数在某一点的梯度是一个非常特殊的向量,其由多元函数对每个变量的偏导数组成(这即是为什么求梯度的时候需要对各个变量求偏导的原因),其方向为函数在该点增加最快的方向,大小为函数在该点的最大变化率。
参考
1、正则化方法:L1和L2 regularization、数据集扩增、dropout:https://blog.csdn.net/u012162613/article/details/44261657
2、梯度的方向为什么是函数值增加最快的方向:https://zhuanlan.zhihu.com/p/38525412