李宏毅学习笔记20.SVM

最新推荐文章于 2024-06-30 18:59:35 发布

oldmao_2000

最新推荐文章于 2024-06-30 18:59:35 发布

阅读量1.5k

点赞数

分类专栏：李宏毅机器学习笔记

本文链接：https://blog.csdn.net/oldmao_2001/article/details/95719629

版权

李宏毅机器学习笔记专栏收录该内容

58 篇文章 80 订阅

订阅专栏

文章目录

前言
前情回顾（二分类Binary Classification）
- approximate的Loss函数
Linear SVM
- Linear SVM GD计算
- Linear SVM的另外一个形式
Kernel
- Dual Representation
- Kernel Trick
Kernel based 的方法
其他SVM方法

前言

最近看西瓜书的SVM，貌似不是很理解，赶紧来看看李宏毅的补一补。
本节主要内容包括：
Hinge Loss的由来
Kernel Method
公式输入请参考：在线Latex公式

前情回顾（二分类Binary Classification）

监督学习，training data中每个x对应有y hat
在这里插入图片描述
三板斧：

这里的 $\delta$ 是用来计算 $g(x^n)$ 是否与 $\widehat y^n$ 相同，相同为0（正确），不同为1（犯错）。整个loss函数是希望 $\widehat y^n$ 犯的错误越少越好。但是上面的loss函数是不可导的，没有办法用GD来求解。因此把 $\delta$ 用一个approximate的函数来替换：
在这里插入图片描述
Step 3：GD求解
上面步骤2中的approximate的函数我们可以自己找函数来进行替换。

approximate的Loss函数

先看坐标轴，横轴为 $\widehat y^nf(x)$ ，纵轴为approximate的Loss（ $l(f(x^n),\widehat y^n)$ ）。意思是 $\widehat y^n$ 和 $f (x)$ 同号的时候希望 $f (x)$ 越大越好， $\widehat y^n$ 和 $f (x)$ 异号的时候希望 $f (x)$ 越小越好
在这里插入图片描述

下面各种替代方案解析一下：

square loss

使用square loss的时候approximate的Loss函数可写为：
$l(f(x^n),\widehat y^n)=(\widehat y^nf(x^n)-1)^2$
当 $\widehat y^n=1$ 时， $l(f(x^n),\widehat y^n)=(f(x^n)-1)^2$
当 $\widehat y^n=-1$ 时， $l(f(x^n),\widehat y^n)=(-f(x^n)-1)^2=(f(x^n)+1)^2$
在这里插入图片描述
在图上看出来（红线），这个方案不合理，原因很简单，我们不希望 $\widehat y^nf(x)$ 同号时 $f (x)$ 越大loss值越大。

Sigmoid+Square Loss

使用Sigmoid+Square loss的时候approximate的Loss函数可写为：
$l(f(x^n),\widehat y^n)=\left (\sigma(\widehat y^nf(x^n))-1\right )^2$
当 $\widehat y^n=1$ 时， $l(f(x^n),\widehat y^n)=(\sigma(f(x^n))-1)^2$
当 $\widehat y^n=-1$ 时， $l(f(x^n),\widehat y^n)=(\sigma(-f(x^n))-1)^2=(1-\sigma(f(x^n))+1)^2=\left (\sigma\left (f(x^n)\right)\right)^2$
在这里插入图片描述
在图上看出来（蓝线），这个方案不合理，原因很简单，Sigmoid+Square函数计算效率低（下面有说明）。

Sigmoid + cross entropy(logistic regression)

使用Sigmoid+cross entropy loss的时候approximate的Loss函数可写为：
$l(f(x^n),\widehat y^n)=ln(1+exp(-\widehat y^nf(x^n)))$
当 $\widehat y^nf(x^n)$ 趋向于正无穷大的时候， $exp(-\widehat y^nf(x^n))$ 趋向于0， $l n (1 + 0) = 0$
当 $\widehat y^nf(x^n)$ 趋向于负无穷大的时候， $exp(-\widehat y^nf(x^n))$ 趋向于∞， $l n (1 + \infty) = \infty$
在这里插入图片描述
$\sigma(f(x))$ 是概率分布，cross entropy是求分布之间的相似度。
从图上看是绿色线，这里的线除了一个 $l n 2$ ，除这个可以使得这个曲线成为Ideal loss的upper bound，upper bound的作用为：当Ideal loss没有办法求导计算的时候，我们可以计算Ideal loss的upper bound，来minimize Ideal loss。
在这里插入图片描述
然后看看Sigmoid + cross entropy和Sigmoid+Square的比较，注意黑点，意味着当 $\widehat y^nf(x^n)$ 在负无穷大的地方，做GD的值很小，也就验证了为什么Sigmoid+Square效率比Sigmoid + cross entrop低。

Hinge Loss

使用Hinge loss的时候approximate的Loss函数可写为：
$l(f(x^n),\widehat y^n)=max(0,1-\widehat y^nf(x^n))$
当 $\widehat y^n=1$ 时， $l(f(x^n),\widehat y^n)=max(0,1-f(x^n))$ ，当 $1 - f (x) < 0$ ，即 $f (x) > 1$ ，函数得到最小值0。
当 $\widehat y^n=-1$ 时， $l(f(x^n),\widehat y^n)=max(0,1+f(x^n))$ ，当 $1 + f (x) < 0$ ，即 $f (x) < - 1$ ，函数得到最小值0。
也就是说 $f (x) > 1$ 和 $f (x) < - 1$ 的时候就可以使得函数得到最小值，画出图形如下，紫色线。
在这里插入图片描述
这里为什么Hinge Loss函数中设置的值为1？因为为1的时候，Hinge Loss函数刚好是Ideal loss的upper bound。
然后看看Sigmoid + cross entropy和Hinge Loss的比较，注意黑点，在过了横轴值为1的点，Hinge Loss就没有变化了，而Sigmoid + cross entropy还可以继续下降。两个Loss函数在效率上都差不多，但Hinge Loss不怎么怕outlier，学习出来的结果会比较robust，后面讲kernel的时候会比较明显。
关于outlier：Sigmoid + cross entropy比较像偏科生，某门课程会考得比较好，但是有些科目比较差；
Hinge Loss则每个科目都比较均衡，都会及格，所以有outlier的时候Hinge Loss反而会有比较好的结果。
在这里插入图片描述

Linear SVM

Step 1: Function (Model)
线性SVM（传统SVM是解决线性可分问题）的模型是下面这个样子， $x_i$ 是样本的i个特征， $w_i$ 是对应的权重。
$f(x)=\sum_iw_ix_i+b$
上面的式子可以写为向量点乘的形式：

把w和b串起来（contract）的vector看做一个新的权重w，这个新的w就是模型的参数，要通过training data找出来。
Step 2: Loss function

Total Loss如下，后面是正则化项，整个 $L (f)$ 是凸函数，因为第一项和第二项的图像如下面所示，可以看出来两项都是凸函数，凸函数加凸函数还是凸函数。

既然是凸函数，那么做GD，无论是什么地方开始都会得到结果。

但是可以从上图看出，这个凸函数有些棱角（由于Hinge loss的棱角造成的）的地方不可导。
Step 3: gradient descent?
有地方不可导，能不能GD？
答案：可以！Recall relu, maxout network
Compared with logistic regression（这个用的crossentropy）, linear SVM has different loss function（这个用的hinge loss）

Linear SVM GD计算

在这里插入图片描述
GD就是要求偏导，先对w求偏导，红框部分根据蓝框可以得到结果 $x_i^n$

前面一项对 $f(x^n)$ 求导考虑两种方式：

因此偏导最后的形式如下：

GD的更新为：

Linear SVM的另外一个形式

把要最小化的total loss函数L写为：
$L(f)=\sum_nl(f(x^n),\widehat y^n)+\lambda||w||_2$
其中可以用 $\epsilon^n$ 来代替第一项
$L(f)=\sum_n\epsilon^n+\lambda||w||_2$
其中：
$\epsilon^n=max(0,1-\widehat y^nf(x^n))$
上面这个 $\epsilon^n$ 可以等价于（如果没有加最小化total loss的限制是不等价的，因为 $\epsilon^n≥0$ 及下面一个条件，可以去取 $f (x)$ 很大，例如∞也可以满足条件。）：
$\epsilon^n≥0$
$\epsilon^n≥1-\widehat y^nf(x^n))$ 即： $\widehat y^nf(x^n))≥1-\epsilon^n$
$\epsilon^n$ 就是Slack variable，就是李航里面提到的软间隔的概率。
以上也称为Quadratic Programming (QP) Problem（二次规划问题）

Kernel

Dual Representation

假设我们找到了可以最小化total loss的weight，记为 $w^*$ ，它其实是所有data的linear的combination，写为：
$w^*=\sum_n\alpha^*_nx^n$
这个找 $w^*$ 的方法一般都是采用拉格朗日对偶性求解，具体参阅李航《统计学习方法》附录C。
这里，李老师用另外一种方法来证明这个事情。先给出之前推出来的对 $w_i$ 做GD的式子：
$w_i\leftarrow w_i-\eta\sum_nc^n(w)x_i^n$
如果 $w$ 有 $k$ 个dimension，则变成：
在这里插入图片描述
我们把 $w_1$ 到 $w_k$ 串成一个vector， $x_1$ 到 $x_k$ 串成一个vector，上面的东西变成：
$w\leftarrow w-\eta\sum_nc^n(w)x^n$
如果 $w$ 初始化为0，上面的式子的解为： $c^n(w)$ （这里没看懂）
根据GD的定义有：
$c^n(w)=\frac {\partial l(f(x^n),\widehat y^n)}{\partial f(x^n)}$
上式的右边可以翻上面的笔记可知，这个玩意对于Hinge Loss而言很多情况下是等于0的，也就意味着组成 $w^*$ 的 $\alpha^*_nx^n$ 中的 $\alpha^*_n$ 有很多值为0，也就是一个稀疏矩阵，那些 $x^n$ 对应的 $\alpha^*_n$ 不为0，则成为support vector。
这里再次给出SVM对比LR要robust的原因：
对于LR而言，组成w的x对应的α都是非0的，所以如果里面的x有outlier就会影响到w的值（就是所有的数据对w都会有影响）；
对于SVM，组成w的x对应的α是可以为0的，所以当x有outlier的时候没关系，把它的α设置为0就可以使得outlier不影响w。
现在在理解了w是x的线性组合的基础上，我们可以进一步写出w的向量化表示：
在这里插入图片描述
重新把之前的三板斧写出来。

上图中注意 $\alpha^T$ 和 $X^T$ 两个转置的方向，这里先计算 $X^Tx$
下面那里有个K函数，就是后面的的核函数。注意：由于 $\alpha_n$ 是稀疏的，所以求 $x^n \cdot x$ 效率并不是很低（只用求非零项）。
在step 1中，我们得到的模型为：
$f(x)=\sum_n\alpha_nK(x^n,x)$
里面 $\alpha_n$ 是我们不知道的，所以：
Step 2,3 目的就是要找一组 $\left \{ \alpha_1^*,...\alpha_n^*,...\alpha_N^*,\right \}$ ，最小化total loss函数 $L$
在这里插入图片描述
注意下面的等号带入了STEP 1的结果，由于最外面已经是n个数据求和，为了不重复就用了 $n^{'}$ 。
We don’t really need to know vector x
We only need to know the inner project between a pair of vectors x and z
记为： $K (x, z)$
以上称为：Kernel Trick，这个东西不仅仅可以用在SVM，还可以用于LR。

Kernel Trick

Kernel trick is useful when we transform all $x$ to $\phi(x)$
假设我们有：
$x=\begin{bmatrix}x_1\\ x_2 \end{bmatrix}$
要变换为：
$\phi(x)=\begin{bmatrix}x_1^2\\ \sqrt 2x_1x_2\\x_2^2 \end{bmatrix}$
接下如果要算核函数： $K(x,z)=\phi(x)\cdot\phi(z)=\begin{bmatrix}x_1^2\\ \sqrt 2x_1x_2\\x_2^2 \end{bmatrix}\cdot\begin{bmatrix}z_1^2\\ \sqrt 2z_1z_2\\z_2^2 \end{bmatrix}$
$=x_1^2z_1^2+2x_1x_2z_1z_2+x_2^2z_2^2=(x_1z_1+x_2z_2)^2=\begin{bmatrix}x_1\\ x_2 \end{bmatrix}\cdot\begin{bmatrix}z_1\\ z_2 \end{bmatrix}$
$=(x\cdot z)^2$
意味着，我们把x和z做feature transform投影到另外的平面后，再做inner product等同于把x和z在做feature transform之前先做inner product后平方。后者明显比较快！
Directly computing $K (x, z)$ can be faster than “feature transformation + inner product” sometimes.
举个栗子：
现在又k维的x和z
在这里插入图片描述
要投影到更高维的平面，在这个平面我们要考虑feature两两之间的关系。

然后用Kernel Trick来进行计算：

注意观察平方项展开后蓝色部分等于于 $\phi(x)$ ，红色部分等于 $\phi(z)$

Kernel based 的方法

Radial Basis Function Kernel

在这个方法里面李老师证明了RBF kernel用transform 后的高维vector内积（ $\phi(x)$ 和 $\phi(z)$ ）的话是不行的，因为它们有无穷多维，应该先内积后平方！先来看RBF kernel的函数样式：
在这里插入图片描述
这里是衡量x和z的相似度，如果x=z，kernel的值为1，如果x≠z，kernel的值为0.，下面来看为什么是无穷多维。把上式的L2 Norm展开：

并用 $C_xC_z$ 做为新的notation，然后把后面的 $exp(x\cdot z)$ 用泰勒级数展开：
在这里插入图片描述
然后把求和项（有无穷多项）写开：

写开后的每一项都可以看做两个向量的内积，然后把这些向量可以分别按照红色和蓝色箭头方向堆叠起来得到 $\phi(x)$ 和 $\phi(z)$ ，可以看到这个是无穷多维的，因此无法直接计算。
RBF相当于在无穷多维上进行计算，因此比较容易overfitting。

Sigmoid Kernel

Sigmoid Kernel的核函数如下：
在这里插入图片描述
Sigmoid Kernel的核函数可以写为哪两个 $\phi(x)$ 和 $\phi(z)$ 的内积？老师没讲，要自己回去用泰勒展开看看。
When using sigmoid kernel, we have a 1 hidden layer network.把sigmoid核函数带入SVM的结果：

这个可以看做只有一个隐藏层的NN， $tanh(x^n\cdot x)$ ，相当于下面样子，分别用 $x^1$ 、 $x^2$ 。。。 $x^n$ 当做权重，x作为输入
在这里插入图片描述
加上后面的输出层

The number of support vectors is the number of neurons.