监督学习-分类模型2-支持向量机（Support Vector Classifier）

最新推荐文章于 2023-09-21 09:20:16 发布

catgray

最新推荐文章于 2023-09-21 09:20:16 发布

阅读量1.8k

点赞数

分类专栏：机器学习 python 文章标签：支持向量机 SVM 分类器监督学习

本文链接：https://blog.csdn.net/catgray/article/details/100699480

版权

python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

机器学习

9 篇文章 1 订阅

订阅专栏

模型介绍

在这里插入图片描述
图2-5中 $H_1$ 在这些训练样本上表现不佳，本身就带有分类错误； $H_2$ 和 $H_3$ 如果作为这个二分类问题的线性模型，在训练集上的表现是完美的。然而，这些分类模型最终都是要应用在未知分布的测试数据集上，因此我们更加关注如何最大限度的为未知分布的数据提供足够的待预测空间。比如，有一个黑色样本稍稍向右偏离 $H_2$ ，那么这个黑色样本很有可能被误判为白色样本；而 $H_3$ 依然可以为更多“稍稍偏离”的样本提供足够的“容忍度”。因此，我们更加期望学习到 $H_3$ 直线作为更好的分类模型。

支持向量

支持向量机分类器，便是根据训练样本的分布，搜索所有可能的线性分类器中最佳的那个。进一步观察图2-5，发现决定 $H_3$ 直线位置的样本并不是所有的训练数据，而是两个空间间隔最小的两个不同类别的数据点，这种可以用来真正帮助决策最优线性分类模型的数据点叫做 支持向量。逻辑斯蒂回归模型在训练中考虑了所有训练样本对参数的影响，因此不一定获取最佳的分类器。

编程实践

大量的研究证明，支持向量机可以在手写体数字图片的分类任务上展现良好的i性能。本次实践使用支持向量机分类处理Scikit-learn内部集成的手写数字图片数据集。

#加载数据
from sklearn.datasets import load_digits
digits=load_digits()
digits.data.shape

#设置训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(digits.data,digits.target,test_size=0.25,random_state=33)
print(y_train.shape,y_test.shape)

from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

#对特征数据信息标准化
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)

#初始化线性分类器、进行模型训练、用训练好的模型对测试样本的数字类型进行预测
lsvc= LinearSVC()
lsvc.fit(X_train,y_train)
y_predict=lsvc.predict(X_test)

#使用模型自带的评估函数进行准确性测评
print('Accuracy',lsvc.score(X_test,y_test))

#使用classification_report模块输出详细的测评数据
from sklearn.metrics import classification_report
print(classification_report(y_test,y_predict,target_names=digits.target_names.astype(str)))

补充：召回率、准确率和F1指标最先适用于二分类任务。而在本次实践中，我们的分类目标有10个类别，0~9这10个数字。因此无法直接计算上述三个指标。通常的做法是，主意评估某个类别的这三个指标：我们把所有其他的类别看作阴性（负）样本，这样就变成了10个二分类任务。

特点分析

支持向量机可以帮助我们在海量甚至高纬度的数据中，筛选对预测任务最为有效的少数训练样本，这样做不仅节省了模型学习所需的数据内存，同时提高了模型的预测性能。但是，获此优势需要付出更多的计算代价（CPU资源和计算时间）。

catgray

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
监督学习-分类模型2-支持向量机（Support Vector Classifier）

模型介绍图2-5中 H1H_1H1在这些训练样本上表现不佳，本身就带有分类错误；H2H_2H2和H3H_3H3如果作为这个二分类问题的线性模型，在训练集上的表现是完美的。然而，这些分类模型最终都是要应用在未知分布的测试数据集上，因此我们更加关注如何最大限度的为未知分布的数据提供足够的待预测空间。比如，有一个黑色样本稍稍向右偏离H2H_2H2，那么这个黑色样本很有可能被误判为白色样本；而...
复制链接

扫一扫

专栏目录