台大-林轩田老师-机器学习基石学习笔记14

版权声明:本文为博主原创文章,未经博主允许不得转载。当然博主还在学习,希望大家多多指正批评 https://blog.csdn.net/qq_33380032/article/details/79425671

上一讲讲的是过拟合的原因,并且也介绍了一点,解决过拟合的方法。此讲重点介绍其中的一种最为常用的方法,正规化(Regularized)。
我们上一节讲说了一个过拟合的例子:
center

step back不仅用于篮球中

我们也知道了,如果我们使用一个高阶多项式(图中红色曲线所示),例如10阶,对目标函数(蓝色曲线)进行拟合。拟合曲线波动很大,虽然Ein很小,但是Eout很大,也就造成了过拟合现象。
我们的正则化的方法呢是希望从高次多项式返回到低次多项式,这个方法的历史原型是:人们为了求得逼近某个函数,而能做到这个的我们有一个方法称为step back:
在我们的学习体系中加上一些条件(constrain)
具体的数学推倒很多相关的blog都有介绍,这里我重点放在我们逼近后的这个函数的一些特点:
这里写图片描述
我们想方设法将之前的线性回归的回归函数,(以线性为例)我们希望其系数很多都是0只有少数是1,这样的变化就是相当于给我们的函数加上了一些条件:
这里写图片描述
举个例子:
如何从10阶转换为2阶呢?首先,H10可表示为:

H10=w0+w1x1x+w2x2+w3x3+⋯+w10x10

H2可表示为:

H2=w0+w1x1x+w2x2

所以,如果限定条件是w3=w4=⋯=w10=0,那么就有H2=H10。也就是说,对于高阶的假设函数,为了防止过拟合,我们可以将其高阶部分的权重w限制为0,这样,就相当于从高阶的形式转换为低阶,fit波形更加平滑,不容易发生过拟合。
这样就比较容易理解的解释了上面的式子。
我们注意到这个3将会是一个常数,我们对这个常数起一个名字叫C,所有的权重w的平方和的大小不超过C,我们把这种假设集记为H(C)。
这里写图片描述
这个集合的规律老师的ppt总结的一样,非常的有特点。

我们需要有个上限

我们要有一个上限的安排,避免在逼近的过程中丧失拟合的效果。
w2<C
这些个权重被限定在半径为C的圆内,而球外的w都不符合要求,即便它是靠近Ein(w)梯度为零的w
这里写图片描述

引用一段比较好的叙述

假设在空间中的一点w,根据梯度下降算法,w会朝着Ein的方向移动(图中蓝色箭头指示的方向),在没有限定条件的情况下,w最终会取得最小值wlin,即“谷底”的位置。现在,加上限定条件,即w被限定在半径为C−−√的圆内,w距离原点的距离不能超过圆的半径,球如图中红色圆圈所示wTw=C。那么,这种情况下,w不能到达wlin的位置,最大只能位于圆上,沿着圆的切线方向移动(图中绿色箭头指示的方向)。与绿色向量垂直的向量(图中红色箭头指示的方向)是圆切线的法向量,即w的方向,w不能靠近红色箭头方向移动。那么随着迭代优化过程,只要Ein与w点切线方向不垂直,那么根据向量知识,Ein一定在w点切线方向上有不为零的分量,即w点会继续移动。只有当Ein与绿色切线垂直,即与红色法向量平行的时候,Ein在切线方向上没有不为零的分量了,也就表示这时w达到了最优解的位置。

这里写图片描述
我们就得到了获得最优解需要满足的条件:

Ein(WREG)+2λNWREG=0
λ称为Lagrange multiplier,是用来解有条件的最佳化问题常用的数学工具
2N是方便后面公式推导。那么我们的目标就变成了求解满足上面公式的wREG
这里写图片描述
下面经过一系列的推倒,我们
会得出一个计算WREG的式子

WREG=(ZTZ+λI)1ZTy

有了这个之后我们可以将λ带入实验:
这里写图片描述
图很明显了,事实上,这种正则化不仅可以用在多项式的假设函数中,还可以应用在logistic regression等其他假设函数中,都可以达到防止过拟合的效果。

好像和VC理论有一定的联系

机器学习基石这课和吴老师的最大不同就是VC维的认知,这是个重要的参数:
Augmented Error表达式如下:

Eaug(W)=Ein(W)+λNWTW

而我们的VCbound的表达是:

EoutEin+Ω(H)

根据放缩性理论我们有直接结论(程序员使用机器学习的时候只需要个大概吧,之后会深入理解这一块)
这里写图片描述

最后归纳总结通用的正则化

选择这个Ω(W)有三种

  1. target-dependent
  2. plausible
  3. friendly
    这里写图片描述
    这个误差的测量一样也有三种一模一样的方式:
    这里写图片描述
    在详细说一下λ的取值:

这里写图片描述
以上两种噪音的情况下,都是噪音越大,相应的λ也就越大。这也很好理解,如果在开车的情况下,路况也不好,即噪音越多,那么就越会踩刹车,这里踩刹车指的就是正则化。但是大多数情况下,噪音是不可知的,这种情况下如何选择λ。这里需要谢谢拉格朗日算子的出演!最后两节课就是将这些告诉我们的!

这节课的正则化学习告诉我们机器学习是需要人为调整的!甚至是加噪音!

展开阅读全文

没有更多推荐了,返回首页