台大机器学习基石 Lecture 12 - Nonlinear Transformation

最新推荐文章于 2020-10-06 14:33:29 发布

ZayneHuang

最新推荐文章于 2020-10-06 14:33:29 发布

阅读量154

点赞数

分类专栏：台大机器学习基石

本文链接：https://blog.csdn.net/github_36324732/article/details/81460934

版权

台大机器学习基石专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本次Lecture主要是讲述如何将非线性问题变成线性问题来求解。

Quadratic Hypotheses

我们之前看到的都是线性的得分函数 $s=w^Tx$ ，这样在二维上是一条直线，三维上是一个平面。

在不具有线性性质的情况下，尽管 $d_{vc}$ 比较小，能保证 $E_{in}\approx E_{out}$ ，但是在一些数据上 $E_{in}$ 会很大，这样的结果就不太理想了。

就像在上图的左图中，我们可以用一个圆来划分，圆形内部是正类，外面是负类。假设它的hypotheses可以写成： $h_{SEP}(x)=sign(-x_1^2-x_2^2+0.6)$ ，于是我们就能把这个式子再写成 $h(x)=sign(\tilde{w}_0\cdot z_0+\tilde{w}_1\cdot z_1+\tilde{w}_2\cdot z_2)$ 的形式——

这样我们就将x空间的点映射到z空间中去，在 $\{ (x_n,y_n)\}$ 是可用圆来划分的， $\{ (z_n,y_n)\}$ 就可以线性划分，完成了 $x_n \in X \overset { \Phi }{\rightarrow}z_n \in Z$ 的转换， $\Phi$ 被称为非线性特征转换（nonlinear feature transform）。

反过来，如果 $\{ (z_n,y_n)\}$ 是线性可分的，是不是 $\{ (x_n,y_n)\}$ 一定可以用圆来划分呢？答案是不一定的，因为不同的参数可能会形成不同的二次曲线，当然也有可能会让 $h(x)$ 恒为正/负。

那么我们如果要讨论更加一般的情况，特征转换为 $\Phi_2(x)=(1,x_1,x_2,x_1^2,x_1x_2,x_2^2)$ ，这样就能够表示所有的二次曲线划分，当然也包括直线、常数点这些特殊情况。那么Z域中的hypothesis可以写成：

Nonlinear Transform

现在我们知道了如何将二次曲线划分hypothesis转化成线性划分hypothesis，那么如何设计一个好的二次hypothesis来达到良好的分类效果呢？

其实还是通过映射的方法，将X域中的二次多项式转换为Z域中的一次向量，这样就能用z值代替x的多项式，其中向量z的个数与x域中x多项式的个数一致（包含常数项）。这样在Z域中可利用线性分类模型进行分类训练。训练好的线性模型中，将z替换为x的多项式就可以。

具体步骤如上图，其实就是一个变换后训练，训练后逆变换（代入）的过程。

于是通过下面两个关键点，就能像打开潘多拉魔盒一样，将非线性的问题用线性问题来解决。

feature transform 特征转换 $\Phi$
linear model 线性模型A

而其实，我们之前也碰到过类似的方法，在笔记识别中，就是将raw原始数据转换成concrete具体特征，然后在进行训练，最后能将识别的raw图片成功分类，这是同样的transform思想。

Price of Nonlinear Transform

我们之前研究的是2阶d维的特征，它在Z域的特征维度有：

$\tilde{d} + 1=1+C_d^1+C_d^2+d=\frac{d(d+3)}2+1$

如果阶数上升为Q，那么Q阶transform多项式 $\Phi _Q(x)$ 在Z域的特征维度就是：

$\tilde{d}=C_{Q+d}^Q=C_{Q+d}^d=O(Q^d)$

由此可以看出，随着Q和d的增大，计算量会变得很大，空间复杂度也大。也就是说，这种特征变换的一个代价是计算的时间、空间复杂度都比较大。

从VC Dimension的角度来看，Z域的特征维度增大就会让 $w$ 的维度增大，也就是自由度增加，VC Dimension就会增大。可以证明的是 $\tilde{w}_i = \tilde{d} + 1 \approx d_{vc}(H_{\Phi_Q})$ ，并且有 $d_{vc}(H_{\Phi_Q}) \leq \tilde{d} + 1$ ，令Z域中的特征维度是 $\tilde{d} + 1$ ，则在域中，任何 $\tilde{d} + 2$ 的输入都不能被shattered；同样，在X域中，任何 $\tilde{d} + 2$ 的输入也不能被shattered。也就是Q较大的时候，VC Dimension会比较大，模型的泛化能力会比较差。

这个例子就告诉我们Q比较大时候的矛盾， $\Phi_4$ 的 $E_{in}$ 小，但是过拟合 $E_{in}$ 与 $E_{out}$ 相差较大，泛化能力倒不如 $\Phi_1$ 。所以就需要一个合适的Q来确保模型的正确且泛化能力较好。采用什么方法呢？当然可以画图来人工视觉观测决定，但是我们往往不能在样本之外获得良好的效果。所以一般情况下还是要保存所有的多项式特征，避免人为选择。