《机器学习实战》SVM支持向量机详细笔记

最新推荐文章于 2024-07-30 01:28:06 发布

galina0xu

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量1.8k

点赞数

分类专栏：机器学习文章标签：机器学习 svm 优化

本文链接：https://blog.csdn.net/galina940217/article/details/68147868

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细探讨了支持向量机（SVM）的概念，包括超平面、支持向量和间隔最大化。通过优化目标的转换，介绍了如何从原始问题转化为拉格朗日乘子法形式，并处理异常点，引入松弛变量以适应不可分数据。最后，简要提及了SMO算法在优化过程中的作用。

摘要由CSDN通过智能技术生成

最近在研读《机器学习实战》这本书，发现支持向量机这一章理论部分比较少，不太好理解。针对SVM，虽然有很多Python的库可以调用，但是在理论方面还是需要好好研究一下的。

基本概念

超平面：分类的决策边界
支持向量：离分割超平面最近的那些点
间隔(margin)：支持向量到分割超平面的距离
目标：最大化间隔

优化目标

这里写图片描述

为了最大化支持向量到分隔面的距离（找到最小间隔的数据点，即支持向量，然后对该间隔最大化），可以写作：

$\mathop{argmax}\limits_{w,b} \left\{ \mathop{min}\limits_{n}{(label\cdot(w^{T}x+b))\cdot\frac{1}{||w||}} \right\}$
subject to： $label\cdot f(x)=label\cdot (w^{T}x+b)≥1，i=1,2,...,n$

其中， $label$ 为类别标签，±1，是点 $x$ 的分类值；
$f(x)=w^{T}x+b$ 为分隔超平面，是一个线性分类器；
$\frac{1}{||w||}$ 是为了防止 $label\cdot(w^{T}x+b)$ 随着w和b等比例增大。

支持向量使得上述约束条件的等号成立，因此该问题可以转换为：

$\mathop{argmax}\limits_{w,b} \left\{ {\frac{1}{||w||}} \right\}$
subject to： $label\cdot (w^{T}x+b)≥1，i=1,2,...,n$

再做一次等价转换，得到：

$\mathop{argmin}\limits_{w,b} \left\{ {\frac{1}{2}} ||w||^{2}\right\}$
subject to： $label\cdot (w^{T}x+b)≥1，i=1,2,...,n$

简化问题

上述问题是一个带约束的优化问题，可以采用拉格朗日乘子法，问题变为：

$\mathop{argmax}\limits_{\alpha}W(\alpha)=L(w,b,\alpha)= {\frac{1}{2}} ||w||^{2}-\begin{equation*} \sum_{i=1}^n \alpha_i(label_i(x_iw^{T}+b)-1) \end{equation*}$
subject to：
$\alpha_i>=0，i=1,2,...,n$

令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 求偏导为零，可得：

$\begin{equation*} \sum_{i=1}^n\alpha_ilabel_i\end{equation*}=0$

$w=\begin{equation*} \sum_{i=1}^n\alpha_ilabel_ix_i\end{equation*}$

消除 $w$ 后，问题变为：

$\mathop{argmax}\limits_{\alpha}W(\alpha)=L(w,b,\alpha)= \begin{equation*} \sum_{i=1}^n\alpha_i\end{equation*}-\frac{1}{2}$ $\begin{equation*}\sum_{i,j=1}^n \alpha_{i}\alpha_{j}label_{i}label_{j} x_{i}^Tx_{j}\end{equation*}$

subject to：
$\alpha_i≥0，i=1,2,...,n$

$\begin{equation*} \sum_{i=1}^n\alpha_ilabel_i\end{equation*}=0$

处理异常点

参考：机器学习算法与Python实践之（二）支持向量机（SVM）初级
这里写图片描述

如果数据不那么“干净”，即不是100%可分的，如上图所示。
对于上面说的这种偏离正常位置很远的数据点，我们称之为 outlier，它有可能是采集训练样本的时候的噪声，也有可能是某个标数据的大叔打瞌睡标错了，把正样本标成负样本了。那一般来说，如果我们直接忽略它，原来的分隔超平面还是挺好的，但是由于这个 outlier 的出现，导致分隔超平面不得不被挤歪了，同时 margin 也相应变小了。当然，更严重的情况是，如果出现右图的这种outlier，我们将无法构造出能将数据线性分开的超平面来。
为了处理这种情况，我们允许数据点在一定程度上偏离超平面。也就是允许一些点跑到H1和H2之间，也就是他们到分类面的间隔会小于1。如下图：

这里写图片描述