【机器学习】SVM-理解与使用

最新推荐文章于 2024-09-30 14:50:12 发布

安带

最新推荐文章于 2024-09-30 14:50:12 发布

阅读量20

点赞数

文章标签：支持向量机机器学习人工智能算法数据挖掘

1：原理理解

【机器学习】SVM-理解与使用_机器学习

图中有分别属于两类的一些二维数据点和三条直线。如果三条直线分别代表三个分类器的话，请问哪一个分类器比较好？

我们凭直观感受应该觉得答案是H3。首先H1不能把类别分开，这个分类器肯定是不行的；H2可以，但分割线与最近的数据点只有很小的间隔，如果测试数据有一些噪声的话可能就会被H2错误分类(即对噪声敏感、泛化能力弱)。H3以较大间隔将它们分开，这样就能容忍测试数据的一些噪声而正确分类，是一个泛化能力不错的分类器。

对于支持向量机来说，数据点若是维向量，我们用维的超平面来分开这些点。但是可能有许多超平面可以把数据分类。最佳超平面的一个合理选择就是以最大间隔把两个类分开的超平面。因此，SVM选择能够使离超平面最近的数据点的到超平面距离最大的超平面。

以上介绍的SVM只能解决线性可分的问题，为了解决更加复杂的问题，支持向量机学习方法有一些由简至繁的模型:

线性可分SVM

当训练数据线性可分时，通过硬间隔(hard margin，什么是硬、软间隔下面会讲)最大化可以学习得到一个线性分类器，即硬间隔SVM，如上图的的H3。

线性SVM

当训练数据不能线性可分但是可以近似线性可分时，通过软间隔(soft margin)最大化也可以学习到一个线性分类器，即软间隔SVM。

非线性SVM

当训练数据线性不可分时，通过使用核技巧(kernel trick)和软间隔最大化，可以学习到一个非线性SVM。

2：使用

import numpy as np
import sklearn.svm as sk\_svm
import sklearn.datasets as datasets

iris \= datasets.load\_iris() # 鸟分类数据集
X \= iris\['data'\]
y \= iris\['target'\]

from sklearn.model\_selection import train\_test\_split
X\_train,X\_test,y\_train,y\_test \= train\_test\_split(X,y,test\_size = 0.2)
print("训练集:",X\_train.shape,y\_train.shape)
print("测试集:",X\_test.shape,y\_test.shape)

model \= sk\_svm.SVC(C=1,kernel='rbf',gamma='auto')
model.fit(X\_train,y\_train)
acc\=model.score(X\_test,y\_test) #根据给定数据与标签返回正确率的均值
print('SVM模型评价:',acc)