台大-林轩田老师-机器学习基石学习笔记14

最新推荐文章于 2018-09-27 23:49:22 发布

davendw

最新推荐文章于 2018-09-27 23:49:22 发布

阅读量832

点赞数

分类专栏：学习资源笔记机器学习

本文链接：https://blog.csdn.net/qq_33380032/article/details/79425671

版权

机器学习同时被 3 个专栏收录

23 篇文章 1 订阅

订阅专栏

学习资源

20 篇文章 0 订阅

订阅专栏

笔记

19 篇文章 0 订阅

订阅专栏

上一讲讲的是过拟合的原因，并且也介绍了一点，解决过拟合的方法。此讲重点介绍其中的一种最为常用的方法，正规化（Regularized）。
我们上一节讲说了一个过拟合的例子：
center

step back不仅用于篮球中

我们也知道了，如果我们使用一个高阶多项式（图中红色曲线所示），例如10阶，对目标函数（蓝色曲线）进行拟合。拟合曲线波动很大，虽然 $E_{in}$ 很小，但是 $E_{out}$ 很大，也就造成了过拟合现象。
我们的正则化的方法呢是希望从高次多项式返回到低次多项式，这个方法的历史原型是：人们为了求得逼近某个函数，而能做到这个的我们有一个方法称为step back:
在我们的学习体系中加上一些条件（constrain）
具体的数学推倒很多相关的blog都有介绍，这里我重点放在我们逼近后的这个函数的一些特点：
这里写图片描述
我们想方设法将之前的线性回归的回归函数，（以线性为例）我们希望其系数很多都是0只有少数是1，这样的变化就是相当于给我们的函数加上了一些条件：

举个例子：
如何从10阶转换为2阶呢？首先， $H_{10}$ 可表示为：

$H_{10}$ = $w_{0}$ + $w_{1}x^{1}$ x+ $w_{2}x^{2}$ + $w_{3}x^{3}$ +⋯+ $w_{10}x^{10}$

而 $H_{2}$ 可表示为：

$H_{2}$ = $w_{0}$ + $w_{1}x^{1}$ x+ $w_{2}x^{2}$

所以，如果限定条件是 $w_{3}$ = $w_{4}$ =⋯= $w_{10}$ =0，那么就有 $H_{2}=H_{10}$ 。也就是说，对于高阶的假设函数，为了防止过拟合，我们可以将其高阶部分的权重w限制为0，这样，就相当于从高阶的形式转换为低阶，fit波形更加平滑，不容易发生过拟合。
这样就比较容易理解的解释了上面的式子。
我们注意到这个3将会是一个常数，我们对这个常数起一个名字叫C，所有的权重w的平方和的大小不超过C，我们把这种假设集记为H(C)。
这里写图片描述
这个集合的规律老师的ppt总结的一样，非常的有特点。

我们需要有个上限

我们要有一个上限的安排，避免在逼近的过程中丧失拟合的效果。
$\sum \left \| w^{2} \right \|<C$
这些个权重被限定在半径为 $\sqrt{C}$ 的圆内，而球外的 $w$ 都不符合要求，即便它是靠近 $E_{in}(w)$ 梯度为零的 $w$ 。
这里写图片描述

引用一段比较好的叙述

假设在空间中的一点 $w$ ，根据梯度下降算法， $w$ 会朝着 $- \triangledown E_{in}$ 的方向移动（图中蓝色箭头指示的方向），在没有限定条件的情况下，w最终会取得最小值 $w_{lin}$ ，即“谷底”的位置。现在，加上限定条件，即w被限定在半径为C−−√的圆内，w距离原点的距离不能超过圆的半径，球如图中红色圆圈所示 $w^{T} \cdot w=C$ 。那么，这种情况下， $w$ 不能到达 $w_{lin}$ 的位置，最大只能位于圆上，沿着圆的切线方向移动（图中绿色箭头指示的方向）。与绿色向量垂直的向量（图中红色箭头指示的方向）是圆切线的法向量，即 $w$ 的方向， $w$ 不能靠近红色箭头方向移动。那么随着迭代优化过程，只要 $- \triangledown E_{in}$ 与w点切线方向不垂直，那么根据向量知识， $- \triangledown E_{in}$ 一定在 $w$ 点切线方向上有不为零的分量，即 $w$ 点会继续移动。只有当 $- \triangledown E_{in}$ 与绿色切线垂直，即与红色法向量平行的时候， $- \triangledown E_{in}$ 在切线方向上没有不为零的分量了，也就表示这时 $w$ 达到了最优解的位置。

这里写图片描述
我们就得到了获得最优解需要满足的条件:

$\triangledown E_{in}(W_{REG})+\frac{2\lambda }{N} \cdot W_{REG}=0$
λ称为Lagrange multiplier，是用来解有条件的最佳化问题常用的数学工具
$\frac{2}{N}$ 是方便后面公式推导。那么我们的目标就变成了求解满足上面公式的 $w_{REG}$ 。
这里写图片描述
下面经过一系列的推倒，我们
会得出一个计算 $W_{REG}$ 的式子

$W_{REG}=(Z^{T}\cdot Z +\lambda I)^{-1}\cdot Z^{T}\cdot y$

有了这个之后我们可以将 $\lambda$ 带入实验：
这里写图片描述
图很明显了，事实上，这种正则化不仅可以用在多项式的假设函数中，还可以应用在logistic regression等其他假设函数中，都可以达到防止过拟合的效果。

好像和VC理论有一定的联系

机器学习基石这课和吴老师的最大不同就是VC维的认知，这是个重要的参数：
Augmented Error表达式如下：

$E_{aug}(W)=E_{in}(W)+\frac{\lambda}{N}\cdot W^{T}\cdot W$

而我们的VCbound的表达是：

$E_{out}\leq E_{in}+\Omega(H)$

根据放缩性理论我们有直接结论（程序员使用机器学习的时候只需要个大概吧，之后会深入理解这一块）
这里写图片描述

最后归纳总结通用的正则化

选择这个 $\Omega (W)$ 有三种

target-dependent
plausible
friendly

这个误差的测量一样也有三种一模一样的方式：

在详细说一下 $\lambda$ 的取值：

这里写图片描述
以上两种噪音的情况下，都是噪音越大，相应的 $\lambda$ 也就越大。这也很好理解，如果在开车的情况下，路况也不好，即噪音越多，那么就越会踩刹车，这里踩刹车指的就是正则化。但是大多数情况下，噪音是不可知的，这种情况下如何选择 $\lambda$ 。这里需要谢谢拉格朗日算子的出演！最后两节课就是将这些告诉我们的！