林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

最新推荐文章于 2020-07-30 16:14:29 发布

cqychen

最新推荐文章于 2020-07-30 16:14:29 发布

阅读量228

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习林轩田正则化

本文链接：https://blog.csdn.net/cqy_chen/article/details/78921809

版权

机器学习笔记专栏收录该内容

74 篇文章 1 订阅

订阅专栏

概要
正则化假设空间
权重递减正则化
正则化和VC理论
一般的正则化

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

概要

上节课讲到了机器学习中发生了过拟合现象，当资料量不多和模型过于复杂，有噪音就容易发生过拟合，本节主要讲解如何应对过拟合现象。

正则化假设空间

首先看过拟合现象：
这里写图片描述
能不能从高次的多项式退回到低次的多项式呢？
假设空间从高次回到低次，那么假设空间的集合就小了，那么就不容易发生过拟合了。
这就是正则化要做的事情，那么如何从10次多项式退回到2次多项式呢？
在10次多项式中,x表示原始的空间向量。

g (x) = w 0 + w 1 x + w 2 x 2 + w 3 x 3 + . . . . . . w 10 x 1 0

$g(x)=w_0+w_1x+w_2x^2+w_3x^3+......w_{10}x^10$
而在二次式中：

g (x) = w 0 + w 1 x + w 2 x 2

$g(x)=w_0+w_1x+w_2x^2$
所以要从10次的多项式回退到2次的多项式，就是相当于令

w 3 = 0, w 4 = 0....... w 10 = 0

$w_3=0,w_4=0.......w_{10}=0$
所以如果在10次空间中，如果不要过拟合，继续采用2次式的假设空间，我们可以限定权重条件：
这里写图片描述

那么这里我们稍微放松一下条件，假设主要限定任意的8个权重为0就好了，而不是最高次的8个为0。就是现在的假设空间也是在10次空间中，但是限定只有3个是有值的（加上常数项）。
这里写图片描述

我们可以看到新的假设空间是处于2次式和10次式之间。这样我们通过条件的限制将10次的空间进行了回退

但是我们的条件是一个NP难的问题，所以还需要进一个优化。我们如果将这些权重的大小限定在一个范围内呢？
这里写图片描述
其实我们可以看到在限定了所有权重在一个范围内，和上面的限定部分参数为0是有重叠的。
当我们的这个常量C不断的变换，这个假设空间就不断的变换。

这里写图片描述

这个假设空间就被称为正则化的假设空间。

权重递减正则化

那么通过规则化，如何求解呢？
这里以回归为例：
目标函数：

min w \in R q + 1 E i n (w) = 1 N \sum n = 1 N (w T z n - y n) 2 添 加 限 定 项 ： \sum n = 1 N w 2 q \leq C

$\min_{w\in R^{q+1}} \ E_{in}(w)=\frac{1}{N}\sum_{n=1}^{N}(w^Tz_n-y_n)^2\\ 添加限定项：\\ \sum_{n=1}^{N}w_q^2\leq C$
那么要求解这个目标方程。可以先看直观化的解释：
这里写图片描述

这里相当于在高维空间中，权重被限定在了一个球体内，在采用梯度下降求解的过程中，如果最佳的点不在球体内，权重就沿着这个球的表面滚动，直到梯度和球的法向量平行才停止。
所以我们得到：

\nabla E i n (w R E G) + 2 λ N w R E G = 0

$\nabla E_{in}(w_{REG})+\frac{2 \lambda}{N} w_{REG}=0$
这里添加系数主要是为了推导方便，其实就是对应拉格朗日系数。
这里固定

λ $\lambda$ ，可以得到w是：

w R E G = (Z T Z + λ) - 1 Z T y

$w_{REG}=(Z^TZ+\lambda)^{-1}Z^Ty$
这个在正则化中称为ridge，还有lasso。
可以参考：
http://blog.csdn.net/xbinworld/article/details/44276389

上面的解法其实推回到拉格朗日式子是：

min w \in R q + 1 1 N \sum n = 1 N (w T z n - y n) 2 + λ N w T w

$\min_{w\in R^{q+1}} \frac{1}{N}\sum_{n=1}^{N}(w^Tz_n-y_n)^2+\frac{\lambda}{N}w^Tw$
这里将

wTw $w^Tw$ 称为正则化项，下面是不同的

λ $\lambda$ 的情况。
这里写图片描述

当我们采用普通的多项式转换，可能导致一些问题，比如映射到高维的时候，X很小，经过高次运算就更小了。需要使用Legendre polynomials。如下图：
这里写图片描述

关于Legendre polynomials请参考：
https://en.wikipedia.org/wiki/Legendre_polynomials

正则化和VC理论

上面讲到了正则化，那么正则化和VC理论有什么关系呢？
其实我们知道，添加正则化导致假设空间限定在一个范围内，就是复杂度降低了。等同于VC维降低。
这里写图片描述

一般的正则化

如何来添加正则化项呢？如果我们知道：
1）目标函数的样子，当然可以喽
2）知道了噪音的分布，那就可以提取那些更加平滑的点来进行训练。
3）或者算法更容易进行优化。
这是在机器学习涉及到的三个问题：
1）损失函数的设计
2）正则化的设计
3）整个损失函数包含了上面两个部分。
这里写图片描述
在实际工作过程中，一般采用L2或者L1，对比下；

对于L1的正则化，更容易得到稀疏的解，因为w向量一直朝最低点前进，会跑到多面体的顶点中。但是不是每个点都可以微分的。

对于L2的正则化而言，可能每个权重都有解，拿去做预测就要耗费更多的计算能力。
再来看噪音和 $\lambda$ 的关系：
这里写图片描述
可以看到，当噪音越大，需要的 $\lambda$ 就越大。
那么如何来调节这个系数呢？

欲知后事如何，且听下回分解。

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

cqychen

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

概要正则化假设空间权重递减正则化正则化和VC理论一般的正则化欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲到了机器学习中发生了过拟合现象，当资料量不多和模型过于复杂，有噪音就容易发生过拟合，本节主要讲解如何应对过拟合现象。正则化假设空间首先看过拟合现象：能不能从高次的多项式退回到低次的多项式呢？假设空间从高次回到低次，那么假设空间的
复制链接

扫一扫