机器学习基石HOW BETTER部分(2)

机器学习基石HOW BETTER部分(2)


标签:机器学习基石

第十四章

minimizes augmented error, where the added regularizer effectively limits model complexity

主要思想:将假设函数从高次多项式降至低次。

发生overfitting的一个重要原因可能是假设过于复杂了,我们希望在假设上做出让步,用稍简单的模型来学习,避免overfitting。例如,原来的假设空间是10次曲线,很容易对数据过拟合;我们希望它变得简单些,比如w 向量只保持三个分量(其他分量为零)。
已知高次多项式包含低次多项式,因此高次函数和低次函数的关系如图所示,本章的内容是在使用高次函数过拟合时,如何将假设函数降低为低次,即如何从外围的大圈中回归到内部的小圈。
1
hypothesis w in H10:w0+w1x+w2x2+w3x3+...+w10x10
hypothesis w in H2:w0+w1x+w2x2
加上一个限制条件 w3=w4=...=w10=0 ,那就会有 H2=H10 .
所以我们也可以这样理解step back = constraint。

确定后面8个分量为0的限制过于严格了,我们可以放宽条件,有任意8个分量为0.
2
确定有几个分量为0的优化问题是NP-Hard的。如果对w 进行更soft/smooth的约束,可以使其更容易优化,所以继续放宽条件,令 ||wTw||2 小于等于一个常数C就好了:
3
我们将此时的假设空间记为H(C),这是“正则化的假设空间”。正则化假设空间中最好的假设用符号 wREG 表示。

权值衰减正则化(Weight Decay Regularization)

为了表述简便,我们把上一节的最优化公式写成向量矩阵的形式。
4

首先绘制有限制条件的最优化示意图,图中蓝色部分为,红色部分为限制条件,从表达公式不难得出两者一个为椭圆,一个为圆形(在高维空间中式超球体)。
5
从第十章中了解在求解最小 Ein 时,可用 Ein 梯度的反方向,即 Ein 作为下降方向,但是与回归问题还有一些不同,此处多了限制条件,因此下降的方向不可以超出限制的范围.

限制就是 wTw=C 的球,球的法向量就是w.
往法向量走会滚出去,所以不能往法向量走。
可以往法向量的垂直方向走。
Ein 在法向量的垂直方向有分量,就代表球可以往法向量的垂直方向滚。
直到 Ein 在法向量的垂直方向没有分量,也就是 Ein wREG
要有 EinwREGwREG 就是找到Lagrange multiplier λ > 0 and wREG 使得 EinwREG+2λNwREG=0
其实也就是 2N(ZTZwREGZTy)+2λNwREG=0
告诉你 λ>0 ,那就剩下一个未知数 wREG
linear regression里的东西套用过来,有:
wREG(ZTZ+λI)1ZTy
这个东西在统计学里叫做 ridge regression。

假如说不是ridge regression,怎么做呢。
就是把 EinwREG+2λNwREG=0 积分,得到 Einw+λNwTw
其中该表达式称为增广错误(augmented error),用 Eaug(w) 表示,其中 wTw 为正则化项(regularizer)。用无限制条件的 Eaug(w) 取代了上节中提到的有限制条件的 Ein(w) .

λ>0 λ=0 时( λ=0 的情况是线性回归的求解),最小w的求解公式为:

wREGargminwEaug(w)forgivenλ>0orλ=0

λ 的大小对 wREG 的影响
6
λ=0 时,过拟合,随着 λ 的不断增大变成了欠拟合状态。越大的 λ 对应着越短的权值向量w,同时也对应着越小的约束半径C。(上一节中处理欠拟合,将C尽量缩小,准确的说寻找小的权值向量w),因此这种将w变小的正则化,即加上 fracλNwTw 的正则化称为权重衰减(weight-decay)正则化。此种正则化,可以和任意的转换函数及任意的线性模型结合。

正则化与VC理论(Regularization and VC Theory)

根据在前面章节学过的VC理论, Ein Eout 的差距就代表了模型的复杂度。假设越复杂的时候,, Ein Eout 的差距就越大。
一个复杂的假设空间H,它的 Ein Eout 的差距可能会很大。
通过正则化,把H变成H(C),从而降低复杂度,减小 Ein Eout 的差距。
和H比起来,H(C)是收到约束的,所以H(C)的VC维会比H小。

泛化的正则项 (General Regularizers)

target-dependent:假如知道目标函数的一些特性,我们可以尽量设计接近目标函数的函数。比如目标函数是偶函数,那么就把奇函数做正则化。
plausible:让线更平滑更简单。跳来跳去的一般就是噪音,我们应该忽略那些跳来跳去的点,让线更加平滑。
friendly:更加容易做最优化
即使设计的正则化项不好也不用担心,因为还存在一个参数 /lamda ,当其为0时,则正则化项不起作用。

L2的正则化
7

Ω(w)=q=0Qw2q=||w||22

该正则化项在为凸函数,在每个位置都可以微分,因此比较容易计算。

L1的正则化
8

Ω(w)=q=0Qwq=||w||1

同样也是凸图形,但是并不是所有的位置都可微,如转角处。
为何成为稀疏?假设菱形法相w全是不为零的分量,因此微分得的向量为分量全为1的向量。如果 Ein(w) 与该全为1的向量不平行,则向量一直会沿着菱形边界移动到顶点处,因此在顶点处产生最优解,最优解含有值为0的分量,因此为稀疏的解,计算速度快。

在结束本章前,观察在不同噪音情况下,参数如何选择。目标函数设计成15次多项式函数,下图表示固定确定性噪音,不同随机性噪音下,参数 \lamda 最佳选择,横坐标表示参数 \lamda 的选择,纵坐标表示 Eout ,其中加粗的点表示在该种噪音情况下参数的最佳取值。
9

表示固定随机性噪音,不同确定性噪音下,参数 \lamda 最佳选择.
10

越大的噪音需要越大的正则化,这如同越颠簸的路,越需要踩刹车一样。但是一个更重要的问题却没有解决,即在噪音未知的情况下,如何选择参数,这是下章的内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值