SVM推导过程浅析

最新推荐文章于 2023-12-19 20:28:36 发布

爱编程真是太好了

最新推荐文章于 2023-12-19 20:28:36 发布

阅读量1.6k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012526436/article/details/88062286

版权

机器学习专栏收录该内容

41 篇文章 18 订阅

订阅专栏

转载请注明出处，原文地址

前言

SVM - support vector machine, 俗称支持向量机，为一种supervised learning算法，属于classification的范畴。本篇文章将会讲述SVM的原理并介绍推导过程。

SVM推导过程

如图，我们有些红色与蓝色点分部在平面中，我们设蓝点为正红点为负。SVM的任务就是找到一条线，将红点和蓝点分割开来，这条线可能会有很多种可能，图中绿色的实线是最好的一条，因为它距离红点和蓝点所在的虚线的距离最大。

在这里插入图片描述

接下来我们就一起来探讨下SVM的这条分割线是如何找到的。

首先，我们先随便找一条线做为分割线，我们选择平面上的任意一个点用向量 $\vec{u}$ 表示，设分割线的法向量为 $\vec{w}$ ，就可以计算出向量 $\vec{u}$ 在 $\vec{w}$ 方向的投影长度。

在这里插入图片描述

假设分割线距离原点的距离为b，那么对于负样本 $\vec u$

$\vec{u} · \vec{w} <= b$

就有

$\vec{u} · \vec{w} - b <= 0$

从公式就能看到，SVM其实就是要寻找合适的 $w$ 与 $b$ 让虚线与实线的距离最大。

接下来我们把实线与虚线的距离归一化，那么对于训练集来说就有如下公式

负项：

$\vec{w}\vec{x} - b <= -1$

正项：

$\vec{w}\vec{x} - b >= 1$

为了将这两个公式统一，我们加入一个辅助量

$y_i = \begin{cases}\;\;1\quad x为正\\-1\quad x为负\end{cases}$

把辅助量带入上面的公式，最终两个公式可以合并成一个公式

$y_i(\vec{w}\vec{x} - b) - 1 >= 0$

那么，怎么样才能保证实线与虚线的距离最宽呢，这里我们设 $\vec x_+$ 与 $\vec x_+$ 分别为正负虚线上面的点，那么就有

$(\vec x_+ - \vec x_-)· \frac{\vec w}{|w|}$

$x_+=\frac{b+1}{\vec w}$

$x_-=\frac{b-1}{\vec w}$

最终我们得到公式

$\frac{2}{|\vec w|}$

所以宽度实际上和训练数据是没有关系的，只要知道了法向量，就可以求出宽度

我们要让宽度越大越好，即

$max\frac {2}{|\vec w|}$

即

$min|\vec w|$

即

$min\frac{1}{2}|\vec w|^2$

这里添加的参数是为了之后求导方便

接下来就是求极值，但是我们这里有一个限制条件，因此根据拉格朗日乘子法,最终求极值的公式为：

$\frac{1}{2}|\vec w|^2 - \sum_{i=1}^N \alpha_i[y_i(\vec w_i \vec x_i-b)-1]$

对 $w$ 与 $b$ 求偏导

$\frac{\alpha L}{\alpha \vec w} = \vec w - \sum_{i=1}^N\alpha_i y_i x_i$

$\frac{\alpha L}{\alpha \vec b} = \sum_{i=1}^N\alpha_i y_i$

令导数为0有

$\vec w = \sum_{i=1}^N\alpha_i y_i x_i$

$\sum_{i=1}^N\alpha_i y_i = 0$

把这两个式子带入到L中

$\sum_{i=1}^N\alpha_i - \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N\alpha_i \alpha_j y_i y_j x_i x_j$

走到这一步我们会发现 $w$ 与 $b$ 已经别其他变量所取代，最后我们要求的是 $\alpha$ 的值，对于 $\alpha$ 的值，一般会采用SMO KKT等算法来求取，这里不做详细说明。

那对于一些无法用线性函数来做分类时怎么办呢

首相，我们会把数据做一个非线性变化，把值变化到一个线性可分的空间上，这个函数我们称为核函数kernel，根据上面的L公式来说，我们并不需要知道每个点的数据怎么变的，只需要拿到核函数的结果，并把 $x_ix_j$ 替换成核函数结果即可求出最后的值。

爱编程真是太好了

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
SVM推导过程浅析

转载请注明出处，原文地址前言SVM - support vector machine, 俗称支持向量机，为一种supervised learning算法，属于classification的范畴。本篇文章将会讲述SVM的原理并介绍推导过程。SVM推导过程如图，我们有些红色与蓝色点分部在平面中，我们设蓝点为正红点为负。SVM的任务就是找到一条线，将红点和蓝点分割开来，这条线可能会有很多种可能，...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。