（Datawhale）基于支持向量机的分类预测

最新推荐文章于 2023-04-29 09:36:33 发布

疏窗泛影

最新推荐文章于 2023-04-29 09:36:33 发布

阅读量613

点赞数

分类专栏：机器学习（原理+实现）文章标签： python 机器学习 svm 支持向量机

本文链接：https://blog.csdn.net/sinat_34953318/article/details/108232364

版权

机器学习（原理+实现）专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1 学习目标

1.了解支持向量机的分类标准；
2. 了解支持向量机的软间隔分类；
3. 了解支持向量机的非线性核函数分类；

2 SVM简介

支持向量机（Support Vector Machine，SVM）是一个非常优雅的算法，具有非常完善的数学理论，常用于数据分
类，也可以用于数据的回归预测中，由于其其优美的理论保证和利用核函数对于线性不可分问题的处理技巧，在
上世纪90年代左右，SVM曾红极一时。在机器学习中，SVM 是有监督的学习模型。

3 SVM算法原理

3.1 点到超平面的距离公式

用线性函数来表示分类，如果在一维空间里就表示一个点，在二维空间里表示一条直线，在三维空间中代表一个平面，当然空间维数还可以更多，这样我们给这个线性函数起个名称叫做“超平面”。超平面的数学表达可以写成：
在这里插入图片描述
在这个公式里，w、x 是 n 维空间里的向量，其中 x 是函数变量；w 是法向量。法向量这里指的是垂直于平面的直线所表示的向量，它决定了超平面的方向。

SVM 就是帮我们找到一个超平面，这个超平面能将不同的样本划分开，同时使得样本集中的点到这个分类超平面的最小距离（即分类间隔）最大化。

所以说， SVM 就是求解最大分类间隔的过程，我们还需要对分类间隔的大小进行定义。首先，我们定义某类样本集到超平面的距离是这个样本集合内的样本到超平面的最短距离。我们用 di 代表点 xi 到超平面 wxi+b=0 的欧氏距离。因此我们要求 di 的最小值，用它来代表这个样本到超平面的最短距离。di 可以用公式计算得出：
在这里插入图片描述
其中||w||为超平面的范数。，

3.2 硬间隔、软间隔和非线性 SVM

硬间隔指的就是完全分类准确，不能存在分类错误的情况。软间隔，就是允许一定量的样本分类错误。实际工作中的数据没有那么“干净”，或多或少都会存在一些噪点。所以线性可分是个理想情况。

如果样本集是个非线性的数据，只要映射函数是线性的，就没法处理，SVM 也处理不了。这时，我们需要引入一个新的概念：核函数。它可以将样本从原始空间映射到一个更高维的特质空间中，使得样本在新的空间中线性可分。这样我们就可以使用原来的推导来进行计算，只是所有的推导是在新的空间，而不是在原来的空间中进行。

所以在非线性 SVM 中，核函数的选择就是影响 SVM 最大的变量。最常用的核函数有线性核、多项式核、高斯核、拉普拉斯核、sigmoid 核，或者是这些核函数的组合。这些函数的区别在于映射方式的不同。通过这些核函数，我们就可以把样本空间投射到新的高维空间中。

3.3 用 SVM 如何解决多分类问题

可以将多个二分类器组合起来形成一个多分类器，常见的方法有“一对多法”和“一对一法”两种。

3.3.1 一对多法

假设我们要把物体分成 A、B、C、D 四种分类，那么我们可以先把其中的一类作为分类 1，其他类统一归为分类 2。这样我们可以构造 4 种 SVM，分别为以下的情况：
（1）样本 A 作为正集，B，C，D 作为负集；
（2）样本 B 作为正集，A，C，D 作为负集；
（3）样本 C 作为正集，A，B，D 作为负集；
（4）样本 D 作为正集，A，B，C 作为负集。
这种方法，针对 K 个分类，需要训练 K 个分类器，分类速度较快，但训练速度较慢，因为每个分类器都需要对全部样本进行训练，而且负样本数量远大于正样本数量，会造成样本不对称的情况，而且当增加新的分类，比如第 K+1 类时，需要重新对分类器进行构造。

3.3.2 一对一法

一对一法的初衷是想在训练的时候更加灵活。我们可以在任意两类样本之间构造一个 SVM，这样针对 K 类的样本，就会有 C(k,2) 类分类器。比如我们想要划分 A、B、C 三个类，可以构造 3 个分类器：
（1）分类器 1：A、B；
（2）分类器 2：A、C；
（3）分类器 3：B、C。
当对一个未知样本进行分类时，每一个分类器都会有一个分类结果，即为 1 票，最终得票最多的类别就是整个未知样本的类别。这样做的好处是，如果新增一类，不需要重新训练所有的 SVM，只需要训练和新增这一类样本的分类器。而且这种方式在训练单个 SVM 模型的时候，训练速度快。但这种方法的不足在于，分类器的个数与 K 的平方成正比，所以当 K 较大时，训练和测试的时间会比较慢。

4 Demo实践

#基于支持向量机的分类预测

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import svm

#构建数据集
x_feature = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0,0,0,1,1,1])
#调用svm
svc = svm.SVC(kernel='linear')
svc = svc.fit(x_feature,y_label)

#查看其对应模型的w
print('the weight of Logistic Regression:',svc.coef_)
# 查看其对应模型的w0
print('the intercept(w0) of Logistic Regression:',svc.intercept_)

the weight of Logistic Regression: [[0.33364706 0.33270588]]
the intercept(w0) of Logistic Regression: [-0.00031373]

# 模型预测
y_train_pred = svc.predict(x_feature)
print('The predction result:',y_train_pred)

The predction result: [0 0 0 1 1 1]

#模型可视化 
#由于此处选择的线性核函数，所以在此我们可以将svm进行可视化。
x_range = np.linspace(-3, 3)
w = svc.coef_[0]
a = -w[0] / w[1]
y_3 = a*x_range - (svc.intercept_[0]) / w[1]
#可视化决策边界
plt.figure()
plt.scatter(x_feature[:,0],x_feature[:,1], c=y_label, s=50, cmap='viridis')
plt.plot(x_range, y_3, '-c')
plt.show()

在这里插入图片描述

5 总结

关于 SVM 分类器的概念，主要三种情况：
完全线性可分情况下的线性分类器，也就是线性可分的情况，是最原始的 SVM，它最核心的思想就是找到最大的分类间隔；
大部分线性可分情况下的线性分类器，引入了软间隔的概念。软间隔，就是允许一定量的样本分类错误；
线性不可分情况下的非线性分类器，引入了核函数。它让原有的样本空间通过核函数投射到了一个高维的空间中，从而变得线性可分。