机器学习基石HOW BETTER部分(2)

最新推荐文章于 2024-08-18 00:00:00 发布

往最优秀方向

最新推荐文章于 2024-08-18 00:00:00 发布

阅读量407

点赞数

分类专栏： machine learning 文章标签：机器学习机器学习基石

本文链接：https://blog.csdn.net/clioh/article/details/50350429

版权

machine learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习基石HOW BETTER部分(2)

标签：机器学习基石

第十四章

minimizes augmented error, where the added regularizer effectively limits model complexity

主要思想：将假设函数从高次多项式降至低次。

发生overfitting的一个重要原因可能是假设过于复杂了，我们希望在假设上做出让步，用稍简单的模型来学习，避免overfitting。例如，原来的假设空间是10次曲线，很容易对数据过拟合；我们希望它变得简单些，比如w 向量只保持三个分量（其他分量为零）。
已知高次多项式包含低次多项式，因此高次函数和低次函数的关系如图所示，本章的内容是在使用高次函数过拟合时，如何将假设函数降低为低次，即如何从外围的大圈中回归到内部的小圈。

hypothesis w in $H_{10}:w_0 + w_1x + w_2x^2 + w_3x^3 + ... + w_{10}x^{10}$
hypothesis w in $H_2 : w_0 + w_1x + w_2x^2$
加上一个限制条件 $w_3 = w_4 = ... = w_{10} = 0$ ,那就会有 $H_2=H_{10}$ .
所以我们也可以这样理解step back = constraint。

确定后面8个分量为0的限制过于严格了，我们可以放宽条件，有任意8个分量为0.

确定有几个分量为0的优化问题是NP-Hard的。如果对w 进行更soft/smooth的约束，可以使其更容易优化，所以继续放宽条件，令 $||w^Tw||^2$ 小于等于一个常数C就好了：

我们将此时的假设空间记为H(C)，这是“正则化的假设空间”。正则化假设空间中最好的假设用符号 $w_{REG}$ 表示。

权值衰减正则化(Weight Decay Regularization)

为了表述简便，我们把上一节的最优化公式写成向量矩阵的形式。

首先绘制有限制条件的最优化示意图，图中蓝色部分为，红色部分为限制条件，从表达公式不难得出两者一个为椭圆，一个为圆形（在高维空间中式超球体）。

从第十章中了解在求解最小 $E_{in}$ 时，可用 $E_{in}$ 梯度的反方向，即 $-\nabla E_{in}$ 作为下降方向，但是与回归问题还有一些不同，此处多了限制条件，因此下降的方向不可以超出限制的范围.

限制就是 $w^Tw=C$ 的球，球的法向量就是w.
往法向量走会滚出去，所以不能往法向量走。
可以往法向量的垂直方向走。
当 $-\nabla E_{in}$ 在法向量的垂直方向有分量，就代表球可以往法向量的垂直方向滚。
直到 $-\nabla E_{in}$ 在法向量的垂直方向没有分量，也就是 $-\nabla E_{in}$ 与 $w_{REG}$ 。
要有 $-\nabla E_{in}（w_{REG}）\propto w_{REG}$ 就是找到Lagrange multiplier $\lambda$ > 0 and $w_{REG}$ 使得 $\nabla E_{in}（w_{REG}）+\frac {2 \lambda}{N}w_{REG} = 0$
其实也就是 $\frac{2}{N}(Z^TZw_{REG}-Z^Ty)+\frac{2 \lambda}{N}w_{REG}=0$
告诉你 $\lambda >0$ ，那就剩下一个未知数 $w_{REG}$ 。
linear regression里的东西套用过来，有：
$w_{REG} ← (Z^TZ + \lambda I)^{−1}Z^Ty$
这个东西在统计学里叫做 ridge regression。

假如说不是ridge regression，怎么做呢。
就是把 $\nabla E_{in}（w_{REG}）+\frac {2 \lambda}{N}w_{REG} = 0$ 积分，得到 $E_{in}（w）+\frac { \lambda}{N}w^Tw$
其中该表达式称为增广错误（augmented error），用 $E_{aug}(w)$ 表示，其中 $w^Tw$ 为正则化项（regularizer）。用无限制条件的 $E_{aug}(w)$ 取代了上节中提到的有限制条件的 $E_{in}(w)$ .

在 $\lambda > 0$ 或 $\lambda = 0$ 时（ $\lambda = 0$ 的情况是线性回归的求解），最小w的求解公式为：

w R E G \leftarrow a r g m i n w E a u g (w) f o r g i v e n λ > 0 o r λ = 0

$w_{REG}← argmin {\atop w}E_{aug}(w) \quad for \quad given \quad \lambda > 0 \quad or \quad \lambda = 0$

$\lambda$ 的大小对 $w_{REG}$ 的影响

在 $\lambda=0$ 时，过拟合，随着 $\lambda$ 的不断增大变成了欠拟合状态。越大的 $\lambda$ 对应着越短的权值向量w，同时也对应着越小的约束半径C。（上一节中处理欠拟合，将C尽量缩小，准确的说寻找小的权值向量w），因此这种将w变小的正则化，即加上 $frac{\lambda}{N}w^Tw$ 的正则化称为权重衰减（weight-decay）正则化。此种正则化，可以和任意的转换函数及任意的线性模型结合。

正则化与VC理论(Regularization and VC Theory)

根据在前面章节学过的VC理论， $E_{in}$ 和 $E_{out}$ 的差距就代表了模型的复杂度。假设越复杂的时候，， $E_{in}$ 和 $E_{out}$ 的差距就越大。
一个复杂的假设空间H，它的 $E_{in}$ 和 $E_{out}$ 的差距可能会很大。
通过正则化，把H变成H（C)，从而降低复杂度，减小 $E_{in}$ 和 $E_{out}$ 的差距。
和H比起来，H(C)是收到约束的，所以H(C)的VC维会比H小。

泛化的正则项 (General Regularizers)

target-dependent：假如知道目标函数的一些特性，我们可以尽量设计接近目标函数的函数。比如目标函数是偶函数，那么就把奇函数做正则化。
plausible：让线更平滑更简单。跳来跳去的一般就是噪音，我们应该忽略那些跳来跳去的点，让线更加平滑。
friendly：更加容易做最优化
即使设计的正则化项不好也不用担心，因为还存在一个参数 $/lamda$ ，当其为0时，则正则化项不起作用。

L2的正则化

Ω (w) = \sum q = 0 Q w 2 q = | | w | | 22

$\Omega(w)=\sum_{q=0}^Qw_{q}^2=||w||_{2}^2$
该正则化项在为凸函数，在每个位置都可以微分，因此比较容易计算。

L1的正则化

Ω (w) = \sum q = 0 Q w q = | | w | | 1

$\Omega(w)=\sum_{q=0}^Qw_{q}=||w||_{1}$
同样也是凸图形，但是并不是所有的位置都可微，如转角处。
为何成为稀疏？假设菱形法相w全是不为零的分量，因此微分得的向量为分量全为1的向量。如果

−∇Ein(w) $- \nabla E_{in}(w)$ 与该全为1的向量不平行，则向量一直会沿着菱形边界移动到顶点处，因此在顶点处产生最优解，最优解含有值为0的分量，因此为稀疏的解，计算速度快。

在结束本章前，观察在不同噪音情况下，参数如何选择。目标函数设计成15次多项式函数，下图表示固定确定性噪音，不同随机性噪音下，参数 $\lamda$ 最佳选择，横坐标表示参数 $\lamda$ 的选择，纵坐标表示 $E_{out}$ ，其中加粗的点表示在该种噪音情况下参数的最佳取值。

表示固定随机性噪音，不同确定性噪音下，参数 $\lamda$ 最佳选择.

越大的噪音需要越大的正则化，这如同越颠簸的路，越需要踩刹车一样。但是一个更重要的问题却没有解决，即在噪音未知的情况下，如何选择参数，这是下章的内容。

往最优秀方向

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石HOW BETTER部分(2)

机器学习基石HOW BETTER部分(2)标签：机器学习基石第十四章minimizes augmented error, where the added regularizer effectively limits model complexity主要思想：将假设函数从高次多项式降至低次。发生overfitting的一个重要原因可能是假设过于复杂了，我们希望在假设上做出让步，用稍简单的模型来学习，避
复制链接

扫一扫

专栏目录