第三课 SVM

最新推荐文章于 2023-03-05 23:44:45 发布

约定写代码

最新推荐文章于 2023-03-05 23:44:45 发布

阅读量117

点赞数

分类专栏：机器学习文章标签：机器学习 SVM

本文链接：https://blog.csdn.net/flying_all/article/details/112758441

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本系列是七月算法机器学习课程笔记

文章目录

1 问题
2 key idea 1
3 key idea 2
4 key idea 3
5 key idea4
6 拉格朗日乘子求解
7 核函数的发现

学习SVM不要先看数学公式，这样把SVM的精华都丢掉了。学习SVM学习作者是如何构建出这样一个算法的过程。

1 问题

无论线性分类、逻辑回归、决策树都是要找到一个决策边界。但是这个决策边界什么时候最好呢？

就像图中这样，答案应该是线条3最好，它的泛化能力更强。那怎么找到这样的一条线呢？

2 key idea 1

在这里插入图片描述

目标是要找到最宽的那条街道(widest street way)。

假设这条线已经存在，可以做这条线的法向量 $\vec{w}$ ，那么对于需要预测的一个点，记作向量 $\vec{u_x}$ ，那么 $\vec{u_x}$ 在法向量上的投影和截距b有这样一个关系：如果 $\vec{u_x}\vec{w}+b>=0$ ，则是属于正分类。否则属于负分类。u是属于任意一个样本。

3 key idea 2

根据上面的式子，我们可以要求如下：
对于训练集中的正样本 $\vec{x_+}\vec{w}+b>=1$
对于训练集中的负样本 $\vec{x_-}\vec{w}+b<=-1$
对于训练集中的站在街边的点取到等于号。

用 $y_i$ 乘以上面的式子会发现两个条件变成一个条件了。
先看正样本， $y_i=1$ ， $y_i*(\vec{x_i}\vec{w}+b)>=1*1$ 得到 $\vec{x_i}\vec{w}+b>=1$

再看负样本， $y_i=-1$ ， $y_i*（\vec{x_i}\vec{w}+b)>=-1*(-1)$ ，得到 $y_i(\vec{x_i}\vec{w})+b>=1$

所以对于训练集中的每一个样本有这样一个约束： $y_i(\vec{x_i}\vec{w}+b)>=1$
站在街边的样本取到等于号。

4 key idea 3

取训练集中站在街边的一个正样本 $\vec{x_+}$ ，一个负样本 $\vec{x_-}$ ，可以得到一个 $\vec{x_+}-\vec{x_-}$ (图中红色的向量)

这条街的宽度就是红色向量在法向量上的投影。

$width=(\vec{x_+}-\vec{x_-})\dfrac{\vec{w}}{|\vec{w}|}$
对于站点街上的正样本,因为 $y_i(\vec{x_+}\vec{w}+b)=1$ ，得到 $\vec{x_+}\vec{w}=1-b$

对于站点街上的负样本,因为 $y_i(\vec{x_-}\vec{w}+b)=1$ ，得到 $\vec{x_-}\vec{w}=-1+b$

代入上面的式子
$width=(\vec{x_+}-\vec{x_-})\dfrac{\vec{w}}{|\vec{w}|}=\dfrac{2}{|\vec{w}|}$

推到到这里，发现这个宽度和数据集没有关系。

要想width最大，那就应该 $\dfrac{2}{|\vec{w}|}$ 最大，那么就 $|\vec{w}|$ 最小，那就 $\dfrac{1}{2}|\vec{w}|^2$ 最小。

到现在的结论是： $min(\dfrac{1}{2}|\vec{w}|^2)$ ，约束条件是: $y_i(\vec{x_i}\vec{w}+b)-1=0$

5 key idea4

现在我们知道目标是要找到最小的 $(\dfrac{1}{2}|\vec{w}|^2)$ ，在约束条件下： $y_i(\vec{x_i}\vec{w}+b)-1=0$

使用拉格朗日解决: $L=\dfrac{1}{2}|\vec{w}|^2-\sum\lambda_i[y_i(\vec{x_i}\vec{w}+b)-1]$

在这个式子中，假设拉格朗日因子 $\lambda$ 已知，w和b是未知数。
首先对w求导取到极值点： $\vec{w}-\sum\lambda_iy_i\vec{x_i}=0$ ，得到 $\vec{w}=\sum\lambda_iy_i\vec{x_i}$

其次对b求导取到极值点： $\sum\lambda_iy_i=0$

将刚刚求得的两个式子带回到拉格朗日式子：
$L=\dfrac{1}{2}|\vec{w}|^2-\sum\lambda_i[y_i(\vec{x_i}\vec{w}+b)-1]$

$=\dfrac{1}{2}\sum\lambda_iy_i\vec{x_i}\sum\lambda_jy_j\vec{x_j}-\sum\lambda_iy_i\vec{x_i}\sum\lambda_jy_j\vec{x_j}-\sum\lambda_iy_ib+\sum\lambda_i$

$=\dfrac{1}{2}\sum\lambda_iy_i\vec{x_i}\sum\lambda_jy_j\vec{x_j}-\sum\lambda_iy_i\vec{x_i}\sum\lambda_jy_j\vec{x_j}+\sum\lambda_i$

$=\sum\lambda_i-\dfrac{1}{2}\sum\lambda_iy_i\vec{x_i}\sum\lambda_jy_j\vec{x_j}$

$=\sum\lambda_i-\dfrac{1}{2}\sum\sum\lambda_i\lambda_jy_iy_j(\vec{x_i}\vec{x_j})$

可以看到L取决于两个样本的乘积： $\vec{x_i}\vec{x_j}$

6 拉格朗日乘子求解

拉格朗日乘子： $\lambda_i$ 可以使用SMO、KTT、QP来求解。在求解过程中每次以其中两个数 $\lambda_i$ ， $\lambda_j$ 为未知数进行求导，求得下一轮的值。因为如果只以一个为未知数： $\lambda_i$ 那么会存在另外一个 $\lambda_j$ 和它是线性关系，不能求解。

7 核函数的发现

用来预测的函数:如果 $\vec{w}\vec{u}+b>=0$ ，则是属于正分类。
$\sum\lambda_iy_i\vec{x_i}\vec{u}+b>=0$

$\sum\lambda_iy_i(\vec{x_i}\vec{u})+b>=0$

$\vec{x_i}\vec{u}$ 是向量的点乘，表示一个线性关系。如果样本线性不可分，怎么办？一种方法是将每个点升级到高维空间。让它们在高维空间线性可分。发现找不到这样的线性函数。上面的式子告诉我们，不用找到每个点的高维空间，只要找到两个点点乘的高维空间即可。也就是说 $K(x_i,x_j)=\varTheta(x_i)\varTheta(x_j)$