支持向量机SVM

最新推荐文章于 2023-09-25 15:03:56 发布

火鸡哥

最新推荐文章于 2023-09-25 15:03:56 发布

阅读量1.5k

点赞数

分类专栏：机器学习监督学习

本文链接：https://blog.csdn.net/u012587024/article/details/82459119

版权

机器学习同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

监督学习

8 篇文章 0 订阅

订阅专栏

1､支持向量机

支持向量机(Support Vector Machine)是一种二类分类模型，支持向量机的间隔最大化使它有别于感知机，同时支持向量机还包括核技巧，使得它解决非线性分类的问题。

这里的间隔分为硬间隔和软间隔。硬间隔是指间隔内没有误分类点，软间隔是允许间隔内有误分类点。

支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

2､模型

支持向量机是定义在特征空间上的间隔最大的线性分类器，所以，支持向量机的模型是一个具有“最大间隔”的划分超平面。

因此，支持向量机的划分超平面是 $w^T*x+b=-1$ 到 $w^T*x+b=1$ 的超平面，所以，预测样本点：
$\begin{cases} w^T*x+b≤-1, & y_i=-1 \\ w^T*x+b≥1, & y_i=1 \end{cases}$

3､策略

支持向量机的间隔： $\frac{2}{||w||}$
支持向量机在最大化间隔，那么也就是最小化： $∣ ∣ w ∣ ∣$ ，等价于最小化 $\frac{||w||^2}{2}$ (方便计算)。

所以，对于硬间隔，其损失函数就是：
$\frac{||w||^2}{2}$

$\frac{||w||^2}{2}$ 越小，间隔越大，而软间隔是允许可以有错误分类的，那间隔就可以无限大了，所以软间隔不能直接使用它来做损失函数，必须对误分类的样本做“惩罚”，而支持向量机使用误分类样本的计数来正则化软间隔的损失函数：
$\frac{||w||^2}{2} + C\sum_{i=1}^ml_{0/1}(y_i*(w^T*x+b)-1)$
其中：
$l_{0/1}(z)=\begin{cases} 1, & z<0 \\ 0, & z≥0 \end{cases}$

对于误分类的样本点，有：
如果 $y_i=-1,而w^T*x+b≥1，则y_i*(w^T*x+b)-1<0$ ， $l_{0/1}(z)=1$ ；
如果 $y_i=1,而w^T*x+b≤-1，则y_i*(w^T*x+b)-1<0$ ， $l_{0/1}(z)=1$ ；
对于正确分类的样本点，有：
如果 $y_i=-1,而w^T*x+b≤-1，则y_i*(w^T*x+b)-1≥0$ ， $l_{0/1}(z)=0$ ；
如果 $y_i=1,而w^T*x+b≥1，则y_i*(w^T*x+b)-1≥0$ ， $l_{0/1}(z)=0$ ；

所以 $\sum_{i=1}^ml_{0/1}(y_i*(w^T*x+b)-1)$ 是对误分类点的计数，而参数 $C$ 决定了误分类点的重要程度；如果 $C$ 无限大，那么对误分类点的“惩罚”也就无限大，也就是无法忍容有错误分类，那就是硬间隔了。

4､内核

在现实中，数据往往是非线性可分的，而支持向量机可以使用核函数来划分非线性的数据。

1､多项式核函数
如图所示，在坐标轴上，有八个样本点，很明显，没有任何一条线能完美划分红蓝色的样本点，但如果使用多项式就可以完美划分；

红点所在的圆的方程 $x^2+y^2 = 2$ ，蓝点所在的圆的方程 $x^2+y^2 = 8$ ，根据支持向量机的间隔最大化可得，划分红蓝点的圆的方程为 $x^2+y^2 = 4$ ，这就是支持向量机的核函数了。

2､高斯径向基函数(rbf)
略！（没找到绘制高斯分布的工具，就不知道要怎么用文字简单地表达出来了）

5､sklearn上的SVM

from sklearn.svm import SVC
clf = SVC()
clf.fit(X_train, y_train)
clf.predict(X_test)

参数说明：
C：误分类的正则系数；
kernel："linear"线性内核，"poly"多项式内核，"rbf"高斯径向基内核；
gamma：当kernel="rbf"时，gamma是指 $\gamma$ 参数， $\gamma = \frac{1}{2\sigma^2}$ ，gamma的值越大，高斯曲线越细高，gamma的值越小，高斯曲线越宽矮；
degree：当kernel="poly"时，degree为最大单项式次数；

火鸡哥

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
支持向量机SVM

1､支持向量机支持向量机(Support Vector Machine)是一种二类分类模型，支持向量机的间隔最大化使它有别于感知机，同时支持向量机还包括核技巧，使得它解决非线性分类的问题。这里的间隔分为硬间隔和软间隔。硬间隔是指间隔内没有误分类点，软间隔是允许间隔内有误分类点。2､模型支持向量机是定义在特征空间上的间隔最大的线性分类器，所以，支持向量机的模型是一个具有“最大间隔”的...
复制链接

扫一扫